基于 Python 3.7， 快 速 掌握 大 数据 编程 工具 
e 针对 想 直接 切入 Python 3 及 网 络 丰 虫 编程 的 读者 

e 学 习 过 程 中 贯穿 大 小 示例 ， 方 便 读者 对 知识 点 做 编程 实践 a 
e 胞 中 与 Scrapy 胞 虫 框架 实战 ， 提 高 你 的 综合 编程 能 力 i 
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吧 
中 


了 Python 如 何 用 来 获取 网 上 的 数据 ? 

如 何 分 状 Python 2.X 和 了 Python 3.X? 

如 何 选择 适合 自己 的 Python 版 本 ? 

学 习 Python 用 什么 工具 ? 

用 Windows 系统 还 是 Linux 系统 ? 

人 工 智能 这 么 火 ， 零 基础 能 学 Python 吗 ? 
如 何 用 一 本 书 学 会 Python 与 网 络 疏 虫 ? 


随 着 Python 语言 的 普及 ， 越 来 越 多 非 计算 机 专业 的 人 们 开始 学 习 它 ， 而 面 对 Python 越 来 
越 复 杂 的 功能 ， 小 白 读者 比较 迷茫 ， 如 何 学 ? 怎么 学 ? 本 书 由 浅 入 深 ， 由 理论 到 实践 ， 尤 其 适 
合 初级 读者 逐步 学 习 和 完善 自己 的 Python 知识 结构 ， 最 终 具 备 自 学 Python 编码 的 能 力 。 本 书 
也 适合 需要 快速 切入 Python 编程 语言 的 技术 人 员 。 


本 书 特色 


1. 完全 零 基础 入 门 ， 不 需要 任何 前 置 知识 
针对 入 门 读者 ， 将 概念 通俗 化 地 解释 出 来 ， 针 对 Python 语法 ， 采 用 小 示例 代码 演示 的 讲 
解 方式 ， 让 读者 演练 结合 ， 没 有 长 篇 大 论 ， 无 须 计算 机 系统 基础 ， 完 全 零 基 础 入 门 。 


2. 代码 格式 统一 ， 讲 解 规范 

书 中 尽 可 能 为 每 个 语法 都 提供 代码 演示 , 复杂 内 容 提供 详细 流程 。 这样 使 得 读者 可 以 很 清 
晰 地 知道 每 个 技术 的 具体 实现 步骤 ， 从 而 提高 学 习 的 效率 。 

3 循序渐进， 由浅 入 深 

从 Python 安装 到 编辑 器 的 使 用 ， 到 第 一 个 Python 程序 ， 读 者 每 个 概念 每 一 步 都 可 以 明明 
白白 ， 中 间 没 有 任何 门槛 ， 技 术 都 是 平滑 过 渡 ， 也 非常 适合 自学 Python。 

















本 书 内 容 


第 1 章 介绍 Python 的 历史 ， 了 解 Python 2.X 和 了 Python 3.X 的 区 别 ， 了 解 Python 3.7 的 变 
化 ， 然 后 搭建 Python 开发 环境 ， 选 择 Python 代码 编辑 器 ， 并 最 终 实现 第 一 个 Python 程序 。 





第 2 章 简要 介绍 Python 语言 的 一 些 基 础 知识 , 让 读者 对 学 习 一 门 语言 有 一 个 概要 的 了 解 ， 
为 后 面 学 习 具 体 的 语法 铺路 。 

第 3 章 介 绍 Python 语言 的 内 置 类 型 ， 包 括 简单 类 型 、 常 量 类 型 、 序 列 、 列 表 、 元 组 、 字 
符 串 、 字 典 、 集 合 等 ， 这 些 是 一 门 开 发 语言 的 基础 ， 正 是 它们 构成 了 程序 代码 的 最 小 单元 。 

第 4 章 介 绍 流程 控制 和 函数 。 它们 可 以 帮助 我 们 更 好 地 管理 代码 , 比如 有 些 重复 代码 就 可 
以 放 在 一 个 函数 中 ， 这 样 每 次 只 需 调用 函数 ， 无 须 重复 编码 。 

第 5 章 介 绍 类 和 对 象 。Python 中 一 切 皆 为 对 象 ， 所 以 了 解 本 章 就 能 更 透彻 地 了 解 Python 
语言 的 基础 。 看 完 本 章 ， 读 者 就 能 看 懂 一 点 Python 的 源码 了 。 

第 6 章 介绍 在 Python 中 如 何 处 理 异 常 。 如 果 要 让 自己 的 代码 更 安全 更 健壮 ， 就 必须 学 会 
异常 的 处 理 ， 这 样 当 程序 出 错时 可 以 更 好 地 引导 程序 完成 ， 而 不 是 中 断 。 

第 7 章 介 绍 模块 和 包 。 很 多 人 可 能 已 经 知道 Python 的 包 和 模块 多 如 牛 毛 ， 那 么 该 如 何 导 
入 别人 的 包 、 如 何 创建 自己 的 包 呢 ? 学 会 本 章 ， 能 让 我 们 看 到 更 多 Python 应 用 的 可 能 性 。 

第 8 章 介 绍 元 类 和 新 型 类 。 本 章 会 提 及 很 多 Python 2X 和 3.X 的 区 别 , 让 读者 了 解 Python 
中 类 的 进化 ， 这 样 就 能 进一步 熟悉 Python 源码 了 。 

第 9 章 介 绍 Python 友 代 器 、 生 成 器 、 装 饰 器 的 内 容 。 这 些 内 容 有 一 定 的 难度 ， 但 非常 有 
外 ， 方 便 代码 的 封装 ， 能 让 代码 看 起 来 更 简洁 有 力 。 
第 10 章 介绍 多 线程 。 多 线程 的 场景 在 现实 中 非常 常见 ， 比 如 双 11 时 那么 多 人 同时 在 线 抢 

购 一 件 商品 ， 此 时 该 如 何 处 理 程 序 呢 ? 多 线程 的 作用 就 体现 出 来 了 。 

第 11 章 介 绍 文件 和 目录 。 虽 然 我 们 平时 的 计算 机 操作 中 经 常 和 文件 、 目 录 打 交道 ， 但 是 
如 何 移动 一 个 文件 、 如 何 添加 文件 的 内 容 都 需要 靠 代 码 和 函数 来 实现 。 

第 12 章 介 绍 正则 表达 式 。 针 对 零 基 础 读者 ， 本 章 详细 介绍 正则 应 用 的 概念 、 语 法 和 原理 ， 
并 演示 Python 中 正则 模块 的 各 种 用 法 。 

第 13 章 介绍 网 络 编程 。 我 们 都 经 常 上 网 ， 经 常 聊 天 ， 这 些 都 是 网 络 编程 的 功劳 。 本 章 不 
仅 介 绍 网 络 编程 的 一 些 基础 概念 ， 还 使 用 Python 实现 一 个 简单 的 聊天 案例 。 

第 14 章 介 绍 urllib 聆 虫 。 疏 虫 的 工具 很 多 ， 本 章 讲 解 的 并 不 复杂 ， 使 用 Python 自 带 的 urllib 
模块 ， 演 示 常 见 的 聆 虫 方法 ， 其 他 怜 虫 工具 其 实 也 是 基于 urllib 的 ， 学 会 了 它 ， 就 可 以 举一反三 。 

第 15 章 是 Beautiful Soup 疏 虫 实战 。 读 者 在 了 解 多 个 疏 虫 框架 的 同时 ， 能 发 现 Beautiful 
Soup 让 复杂 项 目 变 得 可 行 ， 新 手 入 门 更 喜欢 多 个 框架 并 行 研究 ， 找 到 适合 自己 的 框架 。 

第 16 章 是 Scrapy 疏 虫 实战 。 前 面 已 经 学 习 了 很 多 urllib 怜 虫 基础 ， 本 章 则 让 读者 了 解 如 
何 利 用 Scrapy 框架 简化 自己 的 爬 取 项 目 工作 。 
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代码 下 载 


本 书 示例 源 代 码 下载 地 址 可 以 通过 扫描 右边 的 二 维 码 获得 。 
如 果 下 载 有 问题 ， 或 者 对 本 书 有 什么 疑问 ， 请 联系 电子 邮箱 
booksaga@163.com， 邮 件 主 题 为 “Python 3.7 编程 快速 入 门 ”。 
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了 Python 是 一 种 面向 对 象 的 解释 性 的 计算 机 程序 设计 语言 ， 也 是 一 种 功能 强大 而 完善 的 通 














用 型 语言 ， 已 经 具有 十 多 年 的 发 展 历史 ， 成 熟 且 稳 定 。Python 的 语法 简捷 而 清晰 ， 同 时 有 着 
丰富 和 强大 的 类 库 ， 可 以 满足 日 常 开发 方方面面 的 需求 。 
本 章 的 主要 内 容 是 : 


@ 从 整体 上 介绍 Python 语言 。 
@ 。 Python 语言 开发 环境 的 安装 。 
@ Python 3.X 的 特性 。 


了 .1 python 的 历史 


Python 的 创始 人 为 Guido van Rossum。1989 年 圣诞 节 期 间 ，Guido 为 了 打发 圣诞 节 的 无 
趣 ， 决 心 开 发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 的 一 种 继承 。 之 所 以 选中 Python (大 
蟒蛇 的 意思 ) 作为 程序 的 名 字 ， 是 因为 他 是 一 个 Monty Python 的 飞行 马戏 团 的 爱好 者 。 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 
美和 强大 ， 是 专门 为 非 专业 程序 员 设计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认 
为 是 非 开 放 造 成 的 。Guido 决心 在 Python 中 避免 这 一 错误 〈 的 确 如 此 ，Python 与 其 他 的 语言 
如 C、C++ 和 Java 结合 得 非常 好 ) 。 同 时 ， 他 还 想 实 现在 ABC 中 闪现 过 但 未 曾 实现 的 东西 。 

就 这 样 ，Python 在 Guido 手中 诞生 了 。 实 际 上 ， 第 一 个 实现 是 在 Mac 机 上 。 可 以 说 ， 
Python 是 从 ABC 发 展 起 来 的 ， 主 要 受到 了 Modula-3 〈 一 种 相当 优美 且 强 大 的 语言 ， 为 小 型 
团体 所 设计 的 ) 的 影响 ， 并 且 结 合 了 UNIX 和 C 的 习惯 。 

虽然 Python 在 国内 受 关 注 也 只 是 近 几 年 的 事情 ， 但 是 在 计算 机 语言 里 面 ，Python 可 以 算 
是 历史 悠久 的 语言 。Python 有 着 近 20 年 的 历史 ， 版 本 的 推进 相当 稳健 ， 事 实 上 Python 历史 
比 Java 更 悠久 ， 后 者 是 在 1991 年 被 设计 出 来 的 〈 当 时 名 叫 oak) ， 而 真正 以 Java 这 个 名 字 
闻名 于 世 则 是 在 1995 年 。 


1 。 乙 ”为 什么 使 用 Python 


Python 支持 面向 过 程 、 面 向 对 象 、 函 数 式 编程 以 及 其 他 编程 风格 ， 简 洁 而 极 具 表 达 力 的 
语法 和 丰富 而 实用 的 组 件 ， 能 让 我 们 事半功倍 地 完成 任务 。Python 的 开发 效率 要 比 Java、 
C/C++ 高 出 好 几 倍 。 有 一 个 比较 有 意义 的 比较 例子 是 在 C、Java 和 Python 三 种 语言 之 间 进 行 
的 ， 目 标 是 开发 符合 SSH (Secure Shell) 服务 端 协议 的 软件 包 。 


@@ C 语言 : OpenSSH， 直 接 基于 UNIX 系统 服务 ， 从 1999 年 开始 开发 ，4 年 之 后 共有 
64 000 行 C 源 代码 。2003 年 时 ， 开 发 者 列表 上 共有 84 人 ， 平 均 每 人 写 了 762 行 代 
码 ， 也 就 是 190.5 行 /人 年 。 

@ Java 语言; J2SSE， 基 于 Java 1.3 Standard 版 提供 的 API， 从 2002 年 初 开始 开发 ， 
由 SUN 官方 支持 ，2003 年 拥有 20 000 行 Java 源 代码 ， 开 发 者 共 7 人， 平均 每 人 
2857 行 代码 ， 即 1 428.5 行 /人 年 。 

@ Python 语言 : Conch， 基 于 Twisted Framework， 项 目 起 点 时 间 不 详 ， 大 致 为 2002 
年 中 ， 到 2003 年 共有 5 000 行 源 代码 ， 开 发 者 为 1 人 ， 约 4000~5 000 行 /人 年 。 


有 人 根据 上 面 的 案例 推算 ，C、Java 和 Python 的 开发 效率 应 该 为 1:4:10。Java 是 否 可 以 
比 C 语言 高 出 4 倍 的 开发 效率 ， 还 是 颇 值得 怀疑 的 。 然 而 Python 比 C/C++ 和 Java 这 样 的 静 
态 语言 高 出 几 倍 效力 却 是 不 争 的 事实 。 

值得 一 提 的 是 ， 在 Twisted 网 站 官方 文档 上 说 ，Conch 的 运行 时 性 能 并 不 逊色 于 
OpenSSH。 在 同一 台 计 算 机 上 ，OpenSSH 每 秒 钟 可 接纳 3 个 连接 ， 传 输 速度 为 7.4MB/s。 纯 
Python 实现 的 Conch 每 秒 钟 可 接纳 8 个 连接 ， 传 输 速度 为 3MB/s。 经 过 Psyco 编译 优化 后 ， 
每 秒 钟 可 接纳 11 个 连接 ， 传 输 速度 为 8.1MB/s。 

不 只 是 开发 效率 ，Python 帮助 程序 员 更 关注 问题 的 本 质 ， 而 不 用 担心 语言 的 细节 ， 不 需 
要 担心 内 存 泄漏 、 意 外 中 断 。 对 于 C/C++、Java 程序 员 来 说 ，Python 是 很 好 的 原型 开发 工 
具 ， 可 以 快速 地 实现 大 脑 中 的 想法 ， 在 Python 做 出 原型 之 后 再 使 用 Java， 或 者 C/C++ 对 性 能 
需要 提高 的 部 分 进行 改造 。 





























地” 搭建 Python 开发 环境 


在 开始 讨论 Python 之 前 ， 必 须要 在 计算 机 上 运行 Python， 这 对 学 习 它 是 非常 有 益 的 。 这 
样 读者 就 可 以 一 边 学 习 一 边 运行 案例 代码 了 。 


1.3.1 安装 Python 
Python 的 安装 非常 简单 ， 直 接 从 官方 网 站 下 载 Python 的 安装 程序 。www.python.org 提供 


了 不 同 的 操作 系统 上 的 Python 安装 包 ， 为 UNIX、Mac OS X 提供 了 源码 安装 包 ， 而 对 于 
Windows 操作 系统 则 提供 二 进 制 安装 包 (exe 版 本 ) 。 

读者 可 以 按照 自己 的 操作 系统 下 载 相应 的 版 本 ， 对 于 Windows 和 Linux， 可 以 分 别 下 载 
己 经 编译 好 的 二 进 制 编译 版 本 ， 然 后 在 操作 系统 里 运行 安装 程序 就 可 以 安装 到 电脑 中 。 

因为 Python 是 一 个 开发 的 源 代 码 的 项 目 ， 所 以 可 以 下 载 Python 的 源 代码 到 自己 机 器 上 
编译 ， 与 使 用 二 进 制 的 发 行 版 相 比 ， 这 种 方式 给 予 了 对 安装 选项 更 多 的 控制 。 对 于 需要 在 
UNIX、Mac OS XX 操作 系统 安装 Python 的 读者 来 说 ， 尽 量 使 用 这 种 安装 方式 。 


1 . Windows 下 的 直接 安装 
一 般 初 学 者 会 选择 这 种 直接 安装 方式 ， 这 里 给 出 详细 步骤 。 


(1) 打开 https://www.python.org/downloads/ 官 网 ， 在 首页 就 可 以 看 到 下 载 项 ， 如 图 1.1 
所 示 。 
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图 1.1 官网 下 载 


(2) 这 里 我 们 要 根据 自己 的 操作 系统 来 选择 ， 单 击 Windows 连接 进入 具体 的 安装 包 下 
载 界面 。Windows 版 本 包括 32 位 和 64 位 ， 根 据 自己 的 机 器 进行 选择 。 








Python Releases for Windows 








图 1.2 选择 版 本 


(3) 下 载 后 的 文件 名 是 python-3.7.0.exe， 若 是 64 位 系统 则 下 载 后 的 文件 名 为 python- 
3.7.0-amd64.exe。 直 接 双击 安装 文件 ， 安 装 首页 如 图 1.3 所 示 。 在 首页 中 勾 选 And Python 3.7 
to PATH 复 选 框 ， 这 样 安装 后 就 不 需要 再 设置 Python 的 执行 路 径 。 





应 pahon370 bg Setup = x 


Install Python 3.7.0 (64-bit) 
Select Install Now to install Python with default settings or choose 
Customize to enable or disable features. 


一 Install Now 
CAUsers\inaAppData\Local\programe\Python\pythen37 
Includes IDLE, pip and documentation 








Creates shortcuts and file assor 








一 Customize installation 








Choose location and features 
2 Install auncher for all users (recommended) 
windows 回 AddPyhon37 to PATH Cancel 


图 1.3 安装 首页 


(4) 单 击 Install Now 进行 安装 ， 安 装 速度 很 快 ， 不 需要 做 任何 其 他 操作 ， 安 装 完成 的 
界面 如 图 1.4 所 示 ， 非 常 简单 。 





| python 37.0 (54-bi Setup = We 
Setup was successful 


Speaal thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 


still be Python for DOS. 
a New to Pythen? Start with the online tutorial ond 
documentaton. 


See what's new in this release. 


pyth 
windows Glose 











图 1.4 完成 页 面 





(5) 单 击 Close 按钮 ， 此 时 在 开始 菜单 会 添加 如 图 1.5 所 示 的 菜单 项 。 这 里 有 4 项 内 
容 ， 分 别 是 : 


IDLE (Python 3.7 64-bit ) : 官方 自 带 的 Python 集成 开发 环境 。 
Python 3.7 ( 64-bit ) : 我 们 常 说 的 Python 终端 。 

Python 3.7 Manuals ( 64-bit ) : CHM 版 本 的 Python 3.7 官方 使 用 文档 。 
Python 3.7 Module Docs ( 64-bit ) : 模块 速 查 文档 ， 有 网 页 版 本 。 


BB Python 37 


is IDLE (Python 3.7 64-bit) 
py 


Python 3.7 (64-bit) 
[= 
ER, Python 3.7 Module Docs (54-bit) 
] 


Python 3.7 Manuals (54-bib 





图 1.5 Python 的 菜单 项 


(6) 安装 后 ， 打 开 操作 系统 的 “高 级 系统 设置 | 高 级 | 环境 变量 | 用 户 变量 |path”， 会 看 到 
默认 已 经 设置 好 了 Python 的 路 径 ， 如 图 1.6 所 示 。 





变量 值 
OneDrive CAUsers\tina\OneDrive 
TEMP CUsers\tinaAppData\Loca\Temp 
TMP CAUsers\tinaAppData\Loca\Temp 
新 建 (N).… 篇 强 (E).… 删除 (D) 


图 1.6 Python 路 径 


2 . 下 载 源码 的 安装 方式 
(1) 首先 从 官网 下 载 源 代码 ， 如 图 1.7 所 示 。 目 前 Python 最 新 的 版 本 为 3.7.0， 所 以 进 
入 源码 页 面 后 选择 Python 3.7.0。 


2 python 


About Downloads 
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Source code 


Python 3 waas 


MacOSX 
Release Date: 2018. 

Other Platforms 
Python 3.7.0is the nev 

License 








图 1.7 选择 源码 
(2) 选择 版 本 后 ， 进 入 具体 文件 选择 页 面 ， 如 图 1.8 所 示 。 





Files 


Version Operating System 


Gzipped source tarball Source release 
XZ compressed source tarball Source release 








图 1.8 选择 具体 文件 

在 官网 上 ， 一 般 提 供 了 两 种 压缩 格式 的 代码 包 : 

®@ Gzipped source tarball: tgz 格式 ， 在 UNIX 下 用 tar 和 gunzip 压缩 的 文件 。 

®@ XZ compressed source tarball: tar.xz 格式 ， 这 是 Linux 下 用 XZ 压缩 的 文件 ，XZ 是 

一 个 免费 的 软件 ， 是 压缩 软件 中 最 新 的 压缩 率 之 王 。 

对 于 tgz 格式 ， 我 们 可 以 使 用 下 面 的 步骤 解压 : 

%tar xzf Python-3.7.0.tgz 

对 于 bz2 格式 ， 我 们 可 以 使 用 下 面 的 步骤 解压 : 

%xz -d Python-3.7.0.tar.xz 

%tar xvf Python-3.7.0.tar 

(3) 安装 Python 的 源 代码 树 到 python/ 子 目录 中 。 在 目录 里 可 以 找到 README 文件 ， 
它 详细 解释 了 安装 的 过 程 。 总 的 来 说 ， 和 编译 其 他 开发 源 代码 程序 所 使 用 的 命令 相同 ， 也 使 
这 些 命令 : ./configure、make、make test、make install。 一 般 先 运 行 ./configure， 通 常 该 命 
令 后 需要 带 具 体 的 参数 (参数 参考 README 文档 ) ，configure 运行 结束 以 后 ， 可 以 运行 
make 编译 源 代码 ， 然 后 make test 编译 测试 文件 ， 最 后 使 用 make install 完成 安装 。 

当然 读者 也 可 以 在 Windows 下 编译 Python， 可 以 使 用 Cygwin 这 样 的 POSIX 模拟 环境 ， 




















si 








也 可 以 使 用 VC++ 编 译 器 ， 详 细 的 情况 可 以 参考 Win32 目录 下 的 README。 














1.3.2 ”运行 Python 
和 编译 式 语言 不 同 ， 可 以 有 两 种 方式 运行 Python: 
@ ”以 交互 的 方式 输入 代码 直接 运行 。 
@。” 先 创建 程序 文件 ， 再 运行 。 


以 交互 方式 运行 代码 是 体验 Python 最 快 的 方式 ， 很 适合 学 习 Python 时 使 用 ， 但 是 一 般 
情况 下 都 是 创建 程序 文件 ， 直 接 运 行程 序 文件 的 。 


1. 以 交互 方式 运行 Python 

@@ 在 Windows 系统 下 ， 在 系统 菜单 下 单 击 Python 菜单 下 的 IDLE， 或 者 直接 打开 cmd 
窗口 ， 输 入 “python” 命 令 。 

@@ 在 UNIX 操作 系统 下 ， 只 需要 在 shell 中 输入 “python” 命 令 就 可 以 了 。 


以 Windows 为 例 ， 运 行 Python 的 方式 如 图 1.9 所 示 。 
python 37.0 shell - oO x| 
File Edit Shell Debug Options Window Help 


Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59 
51) DISC V.1914 64 bit (CD64) on win32 

















Type “copyright”, “credits” or “license()” for more 
onation: 
[加 CAWINDOWS\system32\cmd.exe - python 一 口 X 
icrosoft Windows [版 本 10. 0. 17134. 167] 
(c) 2018 Microsoft Corporation。 保 留 所 有 权利 。 
IDEL 
\Users\tina>python 
thon 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:5 
[MSC v. 1914 64 bit (AND64)] on win32, 
a “help”, “copyright”, “credits” or “license” for 
re information. 
cmd 
v 
图 1.9 运行 Python 
2. Python 程序 


在 Windows 下 ，Python 脚本 和 其 他 程序 一 样 双击 运行 。 当 然 ， 也 可 以 在 cmd 窗口 中 输 
入 程序 名 字 运 行 ， 例 如 : 


python test.py 


在 UNIX 或 者 Linux 下 ， 可 以 在 shell 下 ， 使 用 python+python 程序 文件 名 运行 。 例 如 ， 
一 个 Python 的 程序 名 是 testpy， 那 么 我 们 可 以 用 以 下 方式 运行 : 


%python test.py 
chmod 命令 将 testpy 设置 为 可 执行 ， 就 可 以 将 其 作为 可 执行 程序 来 运行 。 


$$./test.py 

















一 般 Linux 发 行 版 本 已 经 默认 安装 了 Python， 如 需 Python 3.7.0， 需 要 将 默认 安装 的 
Python 删除 后 重新 安装 。 : 


1.3.3 选择 Python IDE 


IDE 的 全 称 是 Integration Development Environment (集成 开发 环境 ) ， 一 般 以 代码 编辑 
器 为 核心 ， 包 括 一 系列 周边 组 件 和 附属 功能 。 一 个 优秀 的 IDE， 最 重要 的 就 是 在 普通 文本 编 
辑 之 外 提供 针对 特定 语言 的 各 种 快捷 编辑 功能 ， 让 程序 员 尽 可 能 快捷 、 舒 适 、 清 晰 地 浏览 、 
输入 、 修 改 代码 。 对 于 一 个 现代 的 IDE 来 说 ,语法 着 色 、 错 误 提 示 、 代 码 折合 、 代 码 完 成 、 
代码 块 定位 、 重 构 、 调 试 器 、 版 本 控制 系统 VCS) 的 集成 等 都 是 重要 的 功能 。 

IDE 是 用 来 帮助 程序 员 编 程 的 工具 ， 一 个 良好 的 IDE 能 够 大 大 地 提高 程序 员 的 开发 效 
率 。Python 的 IDE 种 类 繁多 ， 下 面 对 常 用 的 IDE 进行 介绍 ， 不 过 建议 本 书 读者 尝试 和 掌握 
IDLE 与 PyCharm 两 种 常用 的 IDE。 

于 人 LE 

IDLE 是 Python 标准 发 行 版 内 置 的 一 个 简单 小 巧 的 IDE， 包 括 交 互 式 命令 行 、 编 辑 器 、 
调试 器 等 基本 组 件 ， 足 以 应 付 大 多 数 简单 应 用 。IDLE 是 用 纯 Python 基于 Tkinter 编写 的 ， 最 
初 的 作者 正 是 Python 之 父 Guido van Rossum 本 人 。IDLE 除了 启动 速度 慢 之 外 ， 功 能 太 少 也 
是 一 个 很 大 的 缺点 ， 对 于 大 型 程序 的 开发 不 是 非常 方便 。 























形 界面 接口 。 


本 书 中 一 些 简单 的 代码 都 会 在 IDLE 中 运行 ， 以 >>> 开 头 ， 如 图 1.10 所 示 。 读 者 也 可 以 
不 安装 其 他 软件 ， 使 用 这 个 简单 的 IDLE。 


芍 python 3.7.0 Shell 一 口 4 
File Edit Shell Debug Options Window Help 


Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018，04: 59:51) [DISC v.1914 64 
bit (AMD64)] on,win32 
了 9 “copyright”, “credits” or “license()” for more infornation. 

















ln:3 Col:4 





图 1.10 IDLE 


如 果 是 比较 长 的 代码 ， 就 单 击 File[INew File 菜单 打开 编辑 器 ， 如 图 1.11 所 示 。 编 辑 后 的 
代码 ， 可 以 按 Fs 键 运行 〈 前 提 是 需要 先 保存 文件 ) 。 





区 testl.py - Evtest1.py (3.7.0) 一 口 x 


Fle Edit Format Run Options Window Help 
def printok (a): 
0 





a==0: 
Print (“ok”) 
for i in gD): 


print (“ok 
def printokl (a) 
1f a==0 
Print (“ok”) 


for 1 in range(5): 
Print (“ok”) 


tn:1 Col:0 





图 1.11 编辑 代码 


2.PyCharm 

PyCharm 是 一 种 Python IDE， 带 有 一 整套 可 以 帮助 用 户 在 使 用 Python 语言 开发 时 提高 其 
效率 的 工具 ， 比 如 调试 、 语 法 高 亮 、Project 管理 、 代 码 跳 转 、 智 能 提示 、 自 动 完成 、 单 元 测 
试 、 版 本 控制 。 此 外 ， 该 IDE 提供 了 一 些 高 级 功能 ， 以 用 于 支持 Django 框架 下 的 专业 Web 
开发 。 

3.PythonWin 

PythonWin 是 Python Win32 Extensions〈 半 官方 性 质 的 Python for Win32 增强 包 ) 的 一 部 
分 ， 也 包含 在 ActivePython 的 Windows 发 行 版 中 。 如 其 名 字 所 言 ， 只 针对 Win32 平台 。 

总 体 来 说 ，PythonWin 是 一 个 增强 版 的 IDLE， 尤 其 是 易 用 性 方面 (就 像 Windows 本 身 
的 风格 一 样 ) 。 除 了 易 用 性 和 稳定 性 之 外 ， 简 单 的 代码 完成 和 更 强 的 调试 器 都 是 相对 于 
IDLE 的 明显 优势 。 


4.Emacs 和 Vim 


这 两 个 都 是 UNIX/Linux 下 的 著名 工具 ， 并 且 号 称 是 这 个 星球 上 最 强大 〈 以 及 第 二 强 
大 ) 的 文本 编辑 器 。 这 两 个 工具 ， 学 习 曲 线 都 比较 陡峭 ， 并 且 设 计 理 念 是 大 量 使 用 快捷 键 带 
来 最 大 的 便利 ， 对 于 习惯 于 Windows 底下 GUI (图 形 用 户 界面 ，Graphical User Interface) 操 
作 的 人 来 说 ， 使 用 不 太 习 惯 。 

5.VS Code & Atom 

VS Code 和 Atom 是 支持 全 平台 的 IDE， 它 们 自由 免费 ， 可 以 根据 需要 自行 定制 ， 可 以 
自由 添加 、 删 除 插件 ， 对 Python 的 支持 非常 好 。 它 们 是 目前 比较 流行 的 IDE， 但 成 也 萧何 败 
也 萧何 ， 就 是 太 自由 了 ， 对 初级 用 户 而 言 可 能 就 没有 那么 方便 了 。 

6.Eclipse + PyDev 

Eclipse 是 一 个 开放 源 代码 的 软件 开发 项 目 ， 专 注 于 为 高 度 集成 的 工具 开发 提供 一 个 全 功 
能 的 、 具 有 商业 品质 的 工业 平台 。Eclipse 是 新 一 代 的 优秀 泛 用 型 IDE， 具 有 不 逊 于 Emacs 和 
Vim 的 可 扩展 性 ， 并 且 是 图 形 化 界面 ， 操 作 起 来 也 很 方便 。PyDev 是 Eclipse 上 的 Python 开 
发 插件 中 最 成 熟 完 善 的 一 个 ， 而 且 还 在 持续 的 活跃 开发 中 。 除 了 Eclipse 平台 提供 的 基本 功能 
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之 外 ，PyDev 的 代码 完成 、 语 法 查 错 、 调 试 器 、 重 构 等 功能 都 相当 出 色 ， 可 以 说 在 开源 产品 
中 是 最 为 强大 的 一 个 ， 许 多 贴心 的 小 功能 也 很 符合 编辑 习惯 ， 用 起 来 相当 顺手 。PyDev 更 新 
速度 很 快 ， 目 前 还 在 持续 更 新 当中 ， 缺 点 是 Eclipse 安装 和 配置 略为 麻烦 ， 运 行 起 来 速度 不 
快 ， 而 且 比较 占 资 源 。 

除了 以 上 那些 IDE 以 外 ， 还 有 其 他 商业 性 的 IDE 可 供 选 择 ， 比 如 说 WingIDE 一 一 
Wingware 公司 开发 的 商业 产品 ， 总 体 来 说 是 目前 最 为 强大 的 专业 Python IDE， 是 开源 项 目 ， 
可 以 申请 到 免费 的 license， 最 大 的 缺点 和 PyDev 一 样 ， 速 度 较 慢 ， 资 源 占 用 多 。Komodo 是 
另 一 个 优秀 的 商业 产品 ， 由 ActiveState 公司 开发 ， 是 一 个 泛 用 的 脚本 语言 IDE， 除 了 Python 
外 还 支持 JavaScript、Perl、PHP、Ruby 等 多 种 语言 。 读 者 可 以 在 实践 中 选择 自己 喜欢 的 
IDE， 这 里 就 不 一 一 列举 了 。 

在 上 面 的 IDE 中 ，Eclipse + PyDev 比较 全 面 和 方便 ， 调 试 方式 也 和 VC++ 较 为 相似 。 对 
于 习惯 图 形 界面 调试 的 读者 ， 使 用 较为 方便 。 在 开发 大 型 的 Python 程序 的 时 候 ， 推 荐 读者 使 
用 。 














Python 语言 


Python 语言 最 大 的 一 个 特性 就 是 简洁 明了 ， 可 读 性 强 ， 但 并 不 是 说 Python 没有 Java、 
C、Ruby 那么 强大 ，Python 同样 拥有 像 Ruby 那样 动态 语言 强大 的 特性 。 本 节 氢 述 Python 的 
语言 特性 。 


1.4.1 Python 的 缩 进 

这 是 Python 语言 和 其 他 语言 非常 不 同 的 一 个 地 方 ，Python 使 用 缩 进 来 表示 程序 块 ， 而 不 
用 传统 的 大 括号 ， 或 者 用 begin...end 这 样 的 字符 来 表示 。 请 看 下 面 的 例子 1.1。 
例子 1.1 _ 缩 进 方式 比较 


01 // 以 下 是 c 语言 
02 int fib(int a) 

















ke 

04 if (a==1||1a==2) 

05 

06 return 1; 

07 . 

08 else 

09 { 

hi) return fib(a-1)+fib (a-2) > 
dk 上 

Hz， 
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14 # 以 下 是 Python 语言 
15 def fib(al) : 


16 if a==1 or a==2: 

hi return dl 

18 Le 

加 return fib (a-1)+fib (a-2) 


上 述 代码 中 ， 第 一 个 函数 是 C 语言 实现 的 (第 2~12 行 ) ， 它 的 程序 块 是 通过 大 括号 来 
表示 的 。 一 对 大 括号 ， 就 表示 一 个 程序 块 ， 而 一 个 程序 块 则 表示 C 语言 的 一 个 作用 域 。 第 
15~19 行 的 Python 则 通过 缩 进 〈 一 般 是 4 个 空格 或 者 一 个 Tab 键 ) 来 代替 大 括号 。 


作用 域 是 指 某 个 变量 有 效 的 区 域 ， 在 C 语言 中 ， 根 据 作用 域 的 不 同 ， 区 和 可 以 分 为 人 局 
变量 、 局 部 变量 等 。 


Python 用 缩 进 的 方式 来 表达 程序 块 ， 对 于 习惯 于 用 其 他 语言 的 读者 可 能 不 太 适 应 ， 但 是 
其 优点 还 是 很 明显 的 。 通 过 这 种 表达 方式 ，Python 程序 的 风格 比较 统一 ， 代 码 可 读 性 也 比较 
强 ， 同 时 省 去 了 敲 大 括号 或 者 begin...end 之 类 的 符号 。 

Python 通过 缩 进 的 层次 来 判断 程序 的 执行 顺序 和 风 辑 。 每 个 程序 块 和 程序 块 是 并 行 的 关 
系 还 是 包含 的 关系 ， 取 决 于 其 缩 进 的 空格 数 ， 如 例子 1.2 所 示 。 
例子 1.2 Python 缩 进 举例 


01 def Printok(a) : 





02 if a==0: 

03 print ("ok") 

04 for i in range(5): 
05 printt"ok"y 

06 

07 def printokl (a): 

08 if a==0: 

09 print("ok™Y 

10 for i in range(5): 

直下 EECSONKY 


在 上 面 的 代码 中 ，printok 和 printokl 的 代码 不 同 的 是 for i in range(5) 前 面 的 空格 数 。 在 
printok 中 ， 第 4 行 的 for i in range(5) 多 了 四 个 空格 ， 所 以 它 就 属于 printok 程序 块 的 一 部 分 ， 
它 的 运行 必须 满足 a==0 这 个 条 件 ; 在 printokl 中 ， 第 10 行 的 for i in range(5) 的 空格 数 和 if 
a 一 0 是 一 样 的 ， 所 以 它们 是 并 行 关 系 ， 不 管 a 一 0 是 否 满足 ，for i in range(5) 都 会 运行 。 

需要 注意 的 是 ，Python 缩 进 要 使 用 Emacs 的 Python-mode 默认 值 : 4 人 个 缩 进 层 
次 ， 永 远 不 要 混用 制 表 符 和 空格 。 最 流行 的 Python 缩 进 方式 是 仅 使 用 4 个 ， 其 次 是 仅 使 
制 表 符 。 混 合 着 制 表 符 和 空格 缩 进 的 代码 将 被 转换 成 仅 使 用 空格 ， us 
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缩 进 层次 混乱 。 缩 进 方式 不 正确 ， 也 是 初学 者 遇 到 的 最 常见 的 问题 。 


1.4.2 Python 的 序列 

Python 序列 是 Python 重要 的 语言 特性 之 一 。Python 含有 多 种 序列 、 列 表 、 元 组 
(Ctuple) 、 字 典 ， 字 符 串 其 实 也 是 序列 。Python 序列 的 特色 是 : 序列 可 做 运算 ， 包 括 加 法 、 
乘法 ， 可 以 做 切片 ， 支 持 序 列 的 复制 、 序 列 可 以 负 索 引 等 。 下 面 来 看 例子 1.3。 
例子 1.3 ”Python 序列 的 特性 


>>> a=[1,2,3] 
>>> b=[4,5] 


>>> c=a+b 








>>> print(c) 

he | 
>>> d=c*2 

>>> print (d) 

ro A Dr Lr 2 3 Ar 5) 
>>> print(d[0:2]) 
P| 

>2> Print(als=3:=21) 
3] 

>2> Prinmt(tat=3:=L) 
3, 4] 





1.4.3 ”对 各 种 编程 模式 的 支持 

Python 是 一 种 面向 对 象 的 编程 语言 。 不 过 不 像 其 他 面向 对 象 的 语言 ，Python 并 不 强迫 我 
们 用 面向 对 象 的 方法 来 写 程序 ， 人 允许 我 们 用 面向 过 程 的 方式 来 写 模块 、 函 数 等 。Python 甚至 
可 以 使 用 函数 式 的 编程 方式 来 编程 。 

Python 社区 多 为 实用 主义 者 ， 并 不 追求 彻底 完美 的 面向 对 象 语法 (比如 Ruby 和 
Java) 。 使 用 何 种 编程 模式 来 编写 程序 取决 于 程序 员 的 需要 ， 不 过 Python 对 面向 对 象 仍然 支 
持 得 非常 好 ， 不 但 支持 类 、 对 象 、 继 承 、 私 有 、 公 有 成 员 、 多 态 、 重 载 这 些 面向 对 象 语法 ， 
而 且 支持 多 重 继承 、 类 的 公共 属性 等 特性 。 








1.4.4 Python 的 动态 性 
Python 支持 的 动态 性 主要 包括 : 

语义 的 动态 

语句 的 动态 

对 象 属性 的 动态 

基 类 的 动态 改变 
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1. 语义 的 动态 

语义 的 动态 改变 ， 就 是 变量 通过 赋值 来 决定 变量 的 类 型 ， 而 且 通 过 赋值 可 以 改变 变量 的 
类 型 。 目 前 大 部 分 脚本 语言 都 支持 这 个 特性 。 下 面 来 看 例子 1.4。 
例子 1.4 Python 的 动态 语义 


>>> a=1 





>>> type (a) 
<class 'int'> 
>>> a="'12' 

>>> type(a) 
<class 'str'> 
>>> a=1.3 

>>> type(a) 
<class 'float'> 
>>> a=[1,2,3] 
>>> type(a) 


<class 'list'> 

变量 a， 随 着 赋值 操作 ， 类 型 也 随 之 发 生变 化 ， 这 就 是 语义 的 动态 。 

2. 语句 的 动态 

语句 的 动态 ， 是 指 Python 可 以 把 代码 写 到 一 个 字符 串 里 ， 然 后 运行 ， 也 可 以 执行 一 个 文 
件 里 的 代码 ， 以 把 代码 作为 参数 传 给 Python 程序 或 者 代码 ，Python 代码 本 身 可 以 作为 参数 传 
给 Python 程序 运行 ， 如 下 面 的 例子 1.5 所 示 。 
例子 1.5 ”Python 代码 作为 参数 传递 


>>> i=2 

>>> j=3 

>>> exec("sum = i + j") 

>>> print ("sum is : %s" gsum) 


Sum is : 5 

3. 对 象 属性 的 动态 

对 象 属性 的 动态 ， 就 是 可 以 动态 地 新 增 一 个 对 象 的 属性 、 删 除 一 个 属性 、 使 用 getattr0 得 
到 一 个 对 象 的 属性 、 使 用 setattr0 来 修改 设置 对 象 的 新 属性 、 使 用 delattr0 删 除 对 象 的 属性 。 
有 时 还 可 以 用 anewattr=attr 来 设置 新 属性 。 下 面 来 看 例子 1.6。 
例子 1.6 动态 增加 对 象 属性 


>>> colass A(obIecE)s 
































a=3 
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>>> a=A() 

>>> print (a.a) 

| 

>>> setattr (a, "new_member", "新 参数 ") 

>>> print(a.new member) 

新 参数 

对 象 a 是 类 A 的 实例 化 ， 通 过 setattr 给 对 象 a 增加 一 个 属性 new_member。 需 要 注意 的 
是 ， 我 们 给 对 象 a 增加 属性 new_member， 并 没有 给 类 A 增加 new_member， 所 以 用 A 实例 
化 对 象 时 ， 新 对 象 仍然 只 有 一 个 属性 a。 





4. 基 类 的 动态 改变 

继承 基 类 的 动态 改变 是 指 可 以 动态 地 改变 一 个 类 的 继承 基 类 、 增 加 继承 的 基 类 ， 使 一 个 
类 拥有 新 的 基 类 方法 ， 而 不 用 修改 原来 的 基 类 的 方法 。 这 个 听 起 来 比较 抽象 ， 现 在 讲 会 显得 
复杂 ， 估 计 等 学 完 “ 类 和 对 象 ”就 明白 了 。 


1.4.5 匿名 函数 、 藤 套 函 数 


Python 函数 方面 的 语言 特性 主要 包括 参数 可 选 、 参 数 支 持 默认 值 ， 也 可 以 改变 参数 的 赋 
值 顺序 ， 而 且 支持 像 C 语言 printf 那样 的 可 变 参 数 。Python 支持 单行 函数 、 匿 名 函数 、 医 套 
函数 ， 还 支持 函数 作为 参数 进行 传递 ， 这 些 特性 使 得 Python 能 够 支持 函数 式 编程 ， 像 LISP 
或 者 Haskell 那样 使 用 函数 式 的 思维 模式 进行 编程 。 有 关 这 部 分 内 容 ， 我 们 将 在 讨论 函数 的 
章节 做 详细 讨论 。 


1.4.6 Python 自省 
自省 的 英文 为 introspection (有 的 翻译 为 “内 省 ”， 有 的 翻译 为 “反射 ”) ， 是 Python 
的 一 大 特性 。Guido 创造 Python 时 ， 不 希望 把 Python 创造 成 一 个 需要 程序 员 不 时 去 翻阅 语法 
书 的 复杂 语言 ， 所 以 Guido 给 予 了 Python 非常 强大 的 自省 能 

所 谓 自省 ， 对 人 而 言 ， 是 指 对 某 人 自身 思想 、 情 绪 、 动 机 和 行为 的 检查 ， 如 “看 日 三 省 
者 身 ”。 对 计算 机 编程 而 言 ， 查 找 某 些 事物 以 确定 它 是 什么 、 它 知道 什么 以 及 它 能 做 什么 。 
通过 自省 能 力 ， 我 们 就 可 以 通过 Python 解释 器 知道 现在 有 什么 对 象 、 包 、 函 数 可 用 ， 用 来 做 
什么 以 及 如 何 用 等 信息 。 自 省 能 力 还 能 动态 地 对 对 象 的 状态 进行 判断 等 。Python 对 自省 提供 
了 深入 的 广泛 的 支持 ， 这 个 特性 使 得 Python 编程 体验 变 得 非常 便捷 。 在 本 书 以 后 章节 会 穿插 
一 些小 技巧 点 来 介绍 Python 的 自省 能 

除了 上 面 的 一 些 特性 之 外 ，Python 还 有 很 多 语言 特性 ， 比 如 支持 异常 处 理 ， 并 且 支 持 异 



































14 


常 中 else 判断 ， 支 持 循环 语句 else (在 Python 的 循环 语句 中 ， 可 以 有 else 子 句 ， 表 示 没 有 使 
用 break 语句 退出 循环 ， 即 循环 正常 结束 时 要 执行 的 语句 ， 在 for、while 中 均 有 ) ， 支 持 同 
时 赋值 ， 连 接 比较 、 对 象 持久 化 等 各 种 特性 ， 这 些 内 容 将 在 以 后 的 章节 有 具体 讨论 。 




















Python 2.X、Python 3.X 与 Python 3.7 


相对 于 Python 2.X 而 言 ，Python 3.X 的 升级 是 一 个 较 大 的 改变 。 为 了 不 带 入 过 多 的 累 
歼 ，Python 3.0 在 设计 的 时 候 没 有 过 多 地 考虑 向 下 兼容 。 许 多 Python 2.X 的 程序 都 无 法 在 
Python 3.X 上 运行 (也 有 专门 的 程序 可 以 将 Python 2.X 的 程序 转换 成 Python 3.X 的 程序 ) 。 
新 的 Python 程序 建议 使 用 Python 3.X 版 本 的 语法 ， 而 且 大 多 数 第 三 方 库 都 正在 努力 地 兼容 
Python 3.X 版 本 。 














1.5.1 Python 2.X 和 Python 3.X 的 区 别 


Python 2.X 和 Python 3.X 内 部 变化 在 这 里 不 会 详 述 ， 这 里 只 简 述 使 用 时 最 明显 的 几 个 变 
化 ， 以 便于 读者 看 到 Python 的 旧 代码 就 知道 是 不 是 Python 2.X 版 本 。 


1. print() 函 数 
在 Python 2.X 中 ，print 是 语句 ， 到 了 Python 3.X，print 是 函数 。 


##PYthon 2.X 中 print 的 用 法 

>>> print "abcd" 

>>> print ("abcd") #print 后 面 有 空格 
>>> print ("abcd") 

###PYthon 3.X 中 print 的 用 法 

>>>" "print ("abodey 


可 以 看 出 ， 在 Python 3.X 中 print 只 能 以 函数 的 方式 调用 。 
2. 数据 类 型 
Python 3.X 去 除了 long 类 型 ， 只 有 一 种 整 型 一 int， 但 它 的 范围 就 像 Python 2.X 版 本 的 


long。 

Python 3.X 新 增 了 bytes 类 型 ， 对 应 于 Python 2.X 版 本 的 八 位 串 。 

Python 2X 有 ASCII str0 类 型 ，unicode0 是 单独 的 ， 不 是 byte 类 型 。 现 在 ， 在 Python 
3X 中 有 了 Unicode (UTF-8) 字符 串 ， 以 及 一 个 字 节 类 : byte 和 bytearrays。Python 3.X 源码 
文件 默认 使 用 UTF-8 编码 。 








3.range 和 input 
在 Python 2.X 中 有 两 种 方式 可 以 创建 列表 〈 有 序 序列 ) range 和 xrange， 一 个 生成 的 是 列 
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表 ， 一 个 生成 的 是 生成 器 。 到 了 Python 3X 中 ， 只 剩 下 了 一 个 range0 函 数 可 用 ， 而 且 在 
Python 3.X 中 range(O 函 数 返 回 的 是 一 个 对 象 。 这 跟 Python 2.X 是 截然 不 同 的 。 

Python 3.X 中 的 inputO 函 数 完 全 取代 了 Python 2.X 中 的 raw_inputO 函 数 。Input 的 返回 值 
必定 是 一 个 字符 串 。 这 样 就 避免 了 输入 参数 类 型 的 麻烦 。 


4. 模块 改名 


Python 3X 整合 了 Python 2.X 几 个 功能 相似 的 模块 ， 削 减 了 几 个 不 常用 或 者 重复 的 功 
能 ， 并 将 几 个 模块 改名 。 如 Python 3 和 X 将 Python 2.X 中 的 urllib2、urlparse、robotparser 并 入 
urllib 模块 。 

















1.5.2 Python 3.7 的 新 增 功能 


与 Python 3.6 相 比 ，Python 3.7 于 2018 年 6 月 27 日 发 布 ， 本 小 节 介 绍 几 个 常用 的 新 增 功 
能 。 对 于 入 门 读者 而 言 ， 这 些 内 容 其 实 并 不 简单 ， 所 以 读者 也 可 以 直接 略 过 。 


1. 强制 UTF-8 运行 时 模式 


UTF-8 (8-bit Unicode Transformation Format) 是 一 种 针对 Unicode 的 可 变 长 度 字 符 编 
码 ， 其 优势 是 使 用 UTF-8 编码 的 文字 可 以 在 各 国 各 种 支持 UTF-8 字符 集 的 浏览 器 上 显示 ， 不 
管 是 中 文 简体 、 中 文 繁体 还 是 日 文 、 韩 文 等 。 

Python 一 直 支 持 UTF-8， 但 是 本 地 语言 环境 〈locale) 有 时 仍 是 ASCII 码 ， 而 不 是 UTF- 
8， 检 测 语言 环境 的 机 制 并 不 总 是 很 可 靠 ， 所 以 Python 3.7 添加 了 UTF-8 运行 时 模式 (假设 
UTF-8 是 环境 提供 的 语言 环境 ) ， 可 通过 -X utfg PYTHONUTFS 命令 行 开关 启用 ， 在 POSIX 
语言 环境 中 ，UTF-8 模式 默认 情况 下 已 被 启用 ， 但 在 其 他 位 置 默认 情况 下 被 禁用 ， 以 免 破坏 
向 后 兼容 。 


2. 具有 纳 秒 分 辩 率 的 新 时 间 函 数 


现代 系统 中 时 钟 的 分 辩 率 可 能 超过 time.time0O 函 数 及 其 变 体 返 回 的 浮 点 数 的 有 限 精 度 。 
为 了 避免 精度 损失 ，Python 3.7 为 模块 增加 了 现 有 定时 器 功能 的 6 个 新 “ 纳 秒 ” 变 体 time， 
这 些 函 数 会 以 整数 值 的 形式 返回 纳 秒 数 。 



































® time.clock gettime ns() 
time.clock settime ns() 
time.monotonic_ns() 
time.perf counter ns() 


time.process time ns() 


time.time ns() 


CD 


. 内 置 breakpoint() 
Python 附带 内 置 的 调试 器 ， 也 可 以 连 入 第 三 方 调 试 工具 ， 只 要 它们 能 与 Python 的 内 部 调 
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试 API 进行 对 话 。 不 过 ，Python 到 目前 为 止 缺 少 一 种 从 Python 应 用 程序 里 面 以 编程 方式 触 
发 调试 器 的 标准 化 方法 。 

Python 3.7 添加 了 breakpoint()， 可 使 函数 被 调用 时 让 执行 中 断然 后 切换 到 调试 器 。 相 应 
的 调试 器 不 一 定 是 Python 自己 的 pdb， 可 以 是 之 前 被 设 为 首选 调试 器 的 任何 调试 器 。 以 前 ， 
调试 器 不 得 不 手动 设置 ， 然 后 调用 ， 因 而 使 代码 更 见长 。 有 了 breakpointO 后 ， 只 需 一 个 命令 


















































即 可 调用 调试 器 。 
除 以 上 介绍 的 3 个 常见 特色 外 ， 还 有 以 下 几 个 改变 : 
@ 基于 散 列 的 .pyc 文件 。 
@ 自 定义 对 模块 属性 的 访问 。 
@ 面向 开发 者 的 运行 时 模式 。 
@ 新 的 dataclass() 装 饰 器 。 
@@ 新 的 模块 contextvars。 


开始 编程 : 第 一 个 Python Hello World 


既然 是 第 1 章 ， 我 们 就 来 写 一 个 简单 的 Hello World。 打 开 IDEL， 输 入 如 例子 1.7 所 示 


的 代码 。 


例子 1.7 Hello World 


>>> print ("Hello World") 
Hello World 


好 了 ， 是 不 是 很 简单 ? 


本 章 小 结 


本 章 主要 从 整体 上 介绍 了 Python 语言 的 历史 和 语言 特性 ， 讨 论 了 Python 的 安装 和 
Python IDE 的 选择 ， 下 一 章 将 开始 Python 语言 之 旅 。 


本 


至 2 音 


本 是 
4Python 基 础 知识 > 


学 习 一 门 语言 ， 最 基础 的 就 是 语法 ， 一 般 就 是 数据 类 型 、 流 程控 制 等 。 学 习 过 其 他 语言 


的 读者 ， 可 以 在 本 章 看 看 Python 语言 与 其 他 语言 的 区 别 ， 没 有 学 习 过 其 他 语言 的 读者 ， 则 需 
要 在 本 章 加 强 代码 的 练习 。 


本 章 的 主要 内 容 是 : 

PyShell 的 使 用 。 

Python 中 的 数值 、 字 符 串 。 
列表 的 使 用 。 

流程 控制 。 

函数 的 学 习 。 


Python 的 基础 简介 


前 面 学 习 了 很 多 Python 的 理论 知识 ， 本 节 开 始 增加 动手 能 力 ， 先 从 1+1 开始 吧 ! 


2.1.1 启动 Python 解释 器 


打开 IDEL 后 ， 会 出 现 主 提示 符 “>>>”， 表 示 Python 解释 器 已 经 启动 起 来 了 ， 解 释 器 


的 行为 就 像 是 一 个 计算 器 。 我 们 可 以 向 它 输入 一 个 表达 式 ， 它 会 返回 结果 ， 例 如 : 














>>> 1+1 
公 
六 六 
6 
>>> 4-5 


三 下 


表达 式 的 语法 和 大 多 数 计算 机 语言 是 一 样 的 ， 具 有 各 种 数字 类 型 和 四 则 运算 ， 也 可 以 使 
括号 来 划分 表达 式 的 优先 级 ， 例 如 : 


Python 基础 知识 





2.1.2 ”数值 类 型 


可 以 尝试 在 Python 解释 器 下 输入 各 种 类 型 的 数值 ， 不 只 是 整数 ， 也 可 以 是 小 数 ， 甚 至 可 
以 是 复数 ， 例 如 : 





在 上 面 的 代码 中 ，a 是 整数 ，b 是 小 数 ，c 是 复数 ， 复 数 由 两 部 分 组 成 ， 虚 部 由 一 个 后 级 
“j” 或 者 “J” 来 表示 。 带 有 非 零 实 部 的 复数 记 为 “(realtimagj)”， 符 号 “=” 是 绑 定 的 意 
思 ， 意 思 就 是 说 ，a 以 后 和 数字 3 绑 定 在 一 起 了 ， 只 要 提 到 a， 就 知道 它 是 数字 3， 当 然 绑 定 
是 可 以 随时 改变 的 ，a 可 以 和 数字 3 绑 定 在 一 起 ， 也 可 以 和 其 他 数 绑 定 在 一 起 ， 例 如 ; 





同一 个 值 可 以 同时 赋 给 几 个 变量 : 





不 同 的 值 也 可 以 方便 和 几 个 不 同 的 变量 相 绑 定 ， 例 如 : 
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2.1.3 字符 串 


在 Python 中 ， 带 单 引 号 或 者 双 引 号 的 都 是 字符 串 ， 在 Python 中 没有 字符 这 个 概念 ， 单 
个 字符 也 认为 是 字符 串 ， 例 如 :; 


>>> bb="'china' 
>>> aa="china" 
>>> aa 
'china' 
>>> bb 


"china'" 


字符 串 可 以 通过 几 种 方式 分 行 。 可 以 在 行 尾 加 反 斜 杠 作为 继续 符 ， 这 表示 下 一 行 是 当前 
行 的 逻辑 延续 ， 例 如 : 


>>> hello = "这 是 第 1 行 \n\ 
. . .这 是 第 2 行 \n\ 

. . -这 是 第 3 行 \ 

结束 。 

>>> 














或 者 字符 串 可 以 用 一 对 三 重 引号 """" 或 "来 标识 。 三 重 引 号 中 的 字符 串 在 行 尾 不 需要 换行 
标记 ， 所 有 的 格式 都 会 包括 在 字符 串 中 ， 例 如 : 


>>> hello = """ 希 望 你 学 的 开心 
Python 并 不 难 。 
一 个 小 小 的 提示 : 
开心 就 好 。""" 


CE 




















字符 串 可 以 用 + 号 连接 〈 或 者 说 黏合 ) ， 也 可 以 用 * 号 循环 ， 例 如 : 


>>> word = 'Help' + 'A' 











>>> word 
'HelpA' 
FF Cords5 4 9 


'<HelpAHelpAHelpAHelpAHelpA>' 


也 可 以 使 用 字符 串 自 带 的 方法 来 进行 英文 大 小 写 转换 。 例 如 ，upperO 是 转换 成 大 写 ， 而 
lower0 是 转换 成 小 写 : 


>>> e_str="china'" 








>>> € str.upper() 
'CHINA' 


>>> hh=e str.upper'() 
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>>> print (hh) 
CHINA 
>>> hh.lower() 


'china' 





字符 串 可 以 用 下 标 〈 索 引 〉 查 询 ;， 就 像 C 一 样 ， 字 符 串 的 第 一 个 字符 下 标 是 0。 这 里 没 
有 独立 的 字符 类 型 ， 字 符 仅仅 是 大 小 为 一 的 字符 串 。 就 像 在 Icon 中 那样 ， 字 符 串 的 子 串 可 以 
通过 切片 标志 来 表示 ， 两 个 由 冒号 隔 开 的 索引 ， 例 如 : 

>>> hh.lower() 


"china'" 





>>> word='Help' 
>>> word[3] 

'p! 

>>> word[0:2] 
"He 

>>> word[2:4] 
"1p， 


的 切片 操作 符 是 中， 里 面 使 用 数字 ， 用 冒号 间隔， 表示 从 第 儿 位 到 第 几 位 。 如 果 没 有 冒 : 
吕 二 :| 人 人 起 


个 数字 ， 表 示 从 第 1 个 








需要 注意 的 是 ， 字 符 串 是 不 可 以 更 改 的 ， 可 以 创建 新 的 字符 串 ， 但 是 绝 不 能 更 改 存在 的 
字符 串 ， 例 如 : 


>>> word[3]='P' 
Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 
TypeError: 'str' object does not support item assignment 
>>> word[0]='h' 
Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 


TypeError: 'str' object does not support item assignment 


可 以 使 用 已 经 存在 的 字符 串 去 合并 新 的 字符 串 ， 例 如 : 


>>> "htwordtl:] 
"help' 


2.1.4 列表 


列表 是 Python 中 的 容器 ， 用 于 组 织 其 他 的 值 ， 为 中 括号 之 间 用 逗号 分 隔 的 一 列 值 〈 子 
项 ) 。 列 表 的 子 项 不 一 定 是 同一 类 型 的 值 ， 例 如 : 
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Python 3.7 编程 快速 入 门 


像 字符 串 一 样 ， 列 表 也 以 0 开始 ， 可 以 被 切片 、 连 接 等 : 


与 不 变 的 字符 串 不 同 ， 列 表 可 以 改变 每 个 独立 元 素 的 值 : 


列表 可 以 进行 切片 操作 ， 甚 至 可 以 改变 列表 的 大 小 : 


本 书 第 3 章 会 详细 介绍 列表 类 型 的 使 用 ， 在 这 里 简略 介绍 ， 也 是 因为 后 面 的 例子 会 用 到 。 





2.1.5 ”流程 控制 
流程 控制 最 重要 的 是 两 种 流程 控制 方式 : 


@ ”选择 语句 
”循环 语句 








示 : 
本 章 的 流程 控制 和 函数 等 相关 技术 点 只 是 方便 本 章 后 面 的 案例 编码 ， 让 读者 可 以 有 简单 : 
的 了 解 ， 详 细 技术 点 的 分 析 会 在 后 面 的 章节 逐步 展开 。 

1. 选择 语句 


Python 提供 了 直 ..elif...else 语句 进行 选择 分 支 ， 例 如 : 


>>> x = int (input ("输入 一 个 数字 : ")) 
> 
x=0 
Print (' 不 能 小 于 0') 
. elif x == 0: 
print (0) 
。 elif x %2 == 1: 
print ("单数 ") 
-elses 


print ("其 他 ") 


关键 字 “elif” 是 “else if” 的 缩写 ， 可 以 有 效 避 人 免 过 深 的 缩 进 。 

2. 循环 语句 

Python 提供 了 几 个 不 同 的 循环 语句 ， 最 主要 的 有 for 和 while 语句 。 通 常 的 循环 可 能 会 依 
据 一 个 等 差 数 值 步 进 过 程 (如 Pascal) 或 由 用 户 来 定义 迭代 步骤 和 中 止 条 件 (如 C) ， 
Python 的 for 语句 依据 任意 序列 (列表 或 字符 串 〉 中 的 子 项 ， 按 它们 在 序列 中 的 顺序 来 进行 
迭代 。 例 如 : 


>>> a = ['cat', 'Windows', 'defenestrate'] 





OP hn 


print (x, len (x)) 
es 
Windows 7 
defenestrate 12 
在 和 迭代 过 程 中 修改 迭代 序列 不 安全 〈 只 有 在 使 用 列表 这 样 的 可 变 序 列 时 ， 才 会 有 这 样 的 
情况 ) 。 如 果 想 要 修改 迭代 的 序列 〈 例 如， 复制 选择 项 ) ， 可 以 迭代 它 的 复 本 。 通 常 使 用 切 
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片 标识 就 可 以 很 方便 地 做 到 这 一 点 : 


>> or X in alsl: 
if len(x) > 6: 


a.insert (0, x) 


>>> a 


['defenestrate', '‘'cat', 'Windows', '"'defenestrate'] 

Python 中 的 while 语句 和 C 中 使 用 的 很 相似 ， 都 是 在 while 关键 字 后 加 一 个 循环 表达 
式 ， 当 循环 表达 式 为 真 或 者 True 的 时 候 ， 会 一 直 循环 着 ， 当 循环 表达 式 为 False 的 时 候 ， 会 
退出 循环 ， 例 如 : 


>>> i=0 

















>>> while i<5: 


print (i) 
i+=1 
0 
之 
=] 
4 
2.1.6 ”函数 


函数 定义 的 关键 字 是 def， 在 其 后 必须 跟 有 函数 名 和 包括 形式 参数 的 圆 括 号 。 函 数 体 语 
句 从 下 一 行 开 始 ， 必 须 是 缩 进 的 。 函 数 体 的 第 一 行 可 以 是 一 个 字符 串 值 ， 这 个 字符 串 是 该 函 
数 的 文档 字符 串 ， 也 可 称 作 docstring， 相 当 于 代码 的 注释 ， 代 码 中 加 入 文档 字符 串 是 一 个 好 
的 做 法 ， 应 该 养 成 习惯 。 

调用 函数 时 会 为 局 部 变量 引入 一 个 新 的 符号 表 。 所 有 的 局 部 变量 都 存储 在 这 个 局 部 符号 
表 中 。 引 用 参数 时 ， 会 先 从 局 部 符号 表 中 查找 ， 再 是 全 局 符号 表 ， 然 后 是 内 置 命名 表 。 因 
此 ， 全 局 参数 虽然 可 以 被 引用 ， 但 是 不 能 在 函数 中 直接 赋值 〈 除 非 它们 用 global 语句 命 
名 ) 。 

函数 引用 的 实际 参数 在 函数 调用 时 引入 局 部 符号 表 ， 因 此 实 参 总 是 传 值 调用 (这 里 的 值 
总 是 一 个 对 象 引 用 ， 而 不 是 该 对 象 的 值 )。 一 个 函数 被 另 一 个 函数 调用 时 ， 一 个 新 的 局 部 符 
号 表 在 调用 过 程 中 被 创建 。 

函数 定义 在 当前 符号 表 中 引入 函数 名 。 作 为 用 户 定义 函数 ， 函 数 名 有 一 个 为 解释 器 认可 
的 类 型 值 。 这 个 值 可 以 赋 给 其 他 命名 ， 使 其 能 够 作为 一 个 函数 来 使 用 。 这 就 像 一 个 重 命 名 机 
制 ， 例 如 定义 一 个 计算 裴 波 那 契 数 列 的 函数 : 

>> def Tibi(n)s 

Ay brn=4 0 
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While b < n: 
print (b) 
ar b= b, atb 


斐 波 那 契 数列 (Fibonacei sequence) 又 称 为 黄金 分 割 数列 ， 指 的 是 这 样 一 个 数列 : 1、 
下 2% 3 5 8 3 21s 34i%s 


既 可 以 直接 调用 该 函数 ， 也 可 以 将 函数 作为 值 赋 给 其 他 变量 : 


>>> EBD 





<function object at 10042ed0> 
>>> 上 = fib 

>>> £(100) 

UE 2 3 Lo 2 A SS DS 


开始 编程 : 九 九 乘法 表 


在 2.1 节 中 ， 初 步 介绍 了 Python 编程 的 一 些 基 础 语法 知识 ， 本 节 将 应 用 Python 的 这 些 基 
础 知识 来 编程 实现 一 个 简单 的 九 九 乘法 表 。 
【本 节 代 码 参 考 : C02\py_2.1.py】 


2.2.1 九 九 乘法 表 

九 九 乘法 表 是 将 10 之 内 的 数 互相 相 乘 的 结果 以 三 角形 的 样式 打印 出 来 ， 在 本 节 的 应 用 
中 ， 不 只 是 要 将 九 九 乘法 表 以 三 角形 的 样式 打印 出 来 ， 还 需要 以 倒 三 角形 来 打印 九 九 乘法 
表 。 





2.2.2 ”编程 思路 

要 以 三 角形 、 倒 三 角形 的 样式 来 打印 九 九 乘法 表 ， 关 键 的 编程 要 点 有 两 个 : 

@ ”获得 所 有 10 之 内 乘法 的 运算 式 和 结果 。 

@ 将 运算 式 和 结果 排版 成 正三 角 和 倒 三 角 的 形式 。 

要 获得 所 有 10 之 内 的 乘法 运算 式 和 结果 ， 最 简单 的 方法 是 通过 循环 来 实现 ， 通 过 两 个 变 
量 ， 让 它们 都 在 10 之 内 双重 循环 ， 然 后 计算 它们 的 结果 ， 这 样 就 可 以 得 到 10 之 内 所 有 的 运 
算式 和 结果 ， 代 码 如 下 : 


>> def getall(ys 
lis=[] 


for i in range(1,10): 
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for j in range(1,i+!): 
lis.append (str (i)+"*"+str (j)+"="+str (i*j)) 


return 1is 


函数 getall 使 用 了 一 个 双重 循环 ， 该 循环 的 作用 就 是 将 10 之 内 互 乘 的 运算 式 和 结果 都 存 
放 到 列表 lis 中 ， 这 样 就 可 以 使 用 getall 的 返回 值 获得 所 有 的 互 乘 的 运算 式 和 结果 ， 例 如 : 


>>> getall () 

[ "1*1=1", "2*1=2", "2#2=4", "3#1=3", "3*2=6', "3x*3=9", "A*1=4", "4*2=8, 
AA rr OS LO S31L50r UD A200 "O20 O07 
"6*2=12', '6*3=]18', ‘6*4=24', '6*5=30', '6*6=36', '7*1=7', '7*2=14', '7*3=21', 
2 D2 
a ss ok fe el SD i ee ks 
19*5=45"， '9*6=54"', '9*7=63', '9*8=72', “9*9=81'] 


有 了 所 有 的 互 乘 的 运算 式 和 结果 ， 下 面 的 工作 就 是 如 何 组 织 这 些 运算 式 来 排列 成 三 角形 
和 倒 三 角形 ， 也 就 是 说 ， 要 将 列表 lis 的 元 素 按照 一 定 的 规律 输出 到 屏幕 就 可 以 了 。 





2.2.3 ”编程 实现 
九 九 乘法 表 使 用 最 简单 的 for 循环 ， 还 利用 了 Python 特有 的 变量 类 型 一 列表。 程序 很 
简单 ， 保 存 为 py_2.1.py， 运 行 例子 2.1 将 九 九 乘法 表 输 出 到 终端 。 


例子 2.1 Python 打印 九 九 乘法 表 


01 #!/usr/bin/env python3 





02 

03 def getall(): 

04 lis = [] 

05 for i in range(l, 10): 

06 for 1 4n Tange(ls 二 Fl] 

07 Tiseappend(tstre (yy 
08 return lis 

09 

10 def printTabl(lis, order = 'A'): 

下 二 cpLis = lis[:] 

12 if order == 'A': # 顺 序 打印 表格 

13 cpLis.reverse() 

14 for i in range(l, 10): 

15 while > Os 

16 print("%s \t" %cpLis.pop(), end="") 
ih = 

于 个 print() 

19 else: # 倒 序 打印 表格 

20 for 1 in range(l, 10)s 

区 whire 00 > ON 

print("%s \t" %cpLis.pop(), end="") 
区 二 

24 print() 


26 


25 


26 

2 name == " main ': 
28 lis = getall() 

29 PrintTab (lis, 'A') 

30 print("\n"*2) 

纯正 printTab(lis, "“B") 

可 以 在 命令 行 执行 命令 : 


Python py _ 2.1.py 


也 可 以 在 IDEL 中 单 击 File[New File 打开 编辑 器 ， 输 入 上 述 内 容 ， 保 存 为 py_2.1.py 后 ， 
按 F5 键 运行 。 
执行 结果 如 图 2.1 所 示 。 


$ python py_2.1.py 

1*1=1 

1*2-2 2*2=4 

1r*3-3 ”2*3-6 3*3-9 

1*4-4 ”2*4-8 3*4=12 4*4=16 

1*5-5 2*5=10 3*5-15 4*5=20 5S*5=25 

1*6-6 2*6=12 3*6=18 4*6-24 5*6-30 6*6=36 

1*7-7 2*7=14 3*7=21 4*7=28 5*7-35 6*7-42 7*7-49 

1*8-8 2*8=16 3*8=24 4*8-32 5*8-49 6*8=48 7*8-56 8*8=64 

1*9-9 2*9=18 3*9=27 4*9=36 5*9-45 6"*9=54 7*9-63 8*9=72 9*9=81 





9*9=81 8*9=72 7*9=63 6*9=54 5*9=45 4*9=36 3*9=27 2*9=18 1*9=9 
8*8=64 7*8=56 6*8=48 5*8=40 4*8=32 3*8=24 2*8=16 1*8=8 
7*7=49 6*7=42 5*7=35 4*7=28 3*7=21 2*7=14 1*7=7 

6*6=36 5*6=30 4*6=24 3*6=18 2*6=12 1*6=6 

5*5=25 4*5=20 3*5=15 2*5=19 1*5=5 

4*4=16 3*4=12 2*4=8 1*4=4 

3*3=9 2*3=6 1*3=3 

2*2=4 1*2=2 


图 2.1 九 九 乘法 表 


在 例子 2.1 的 第 13 行 中 ， 利 用 list 列表 的 reverse() 将 列表 中 的 元 素 倒置 ， 然 后 利用 popO 
将 元 素 逐 个 “ 吐 ” 出 并 输出 到 屏幕 上 。 





2 .了 本 章 小 结 


本 章 介 绍 了 Python 的 基本 知识 ， 并 安装 好 了 Python 的 环境 ， 用 一 个 简单 的 程序 展示 了 
Python 程序 的 流程 控制 。 
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第 3 章 
<Python 的 内 置 类 型 


和 其 他 程序 语言 一 样 ，Python 也 有 各 种 各 样 的 内 置 类 型 ， 包 括 数字 类 型 、 字 符 串 、 列 
表 、 字 符 串 、 元 组 、 字 典 等 ， 相 对 于 静态 语言 〈 比 如 说 C++、jJava) ，Python 的 数据 类 型 功 
能 更 全 面 和 强大 。 

本 章 的 主要 内 容 是 : 

@@ ”Python 类 型 分 类 。 

@ ”每 种 类 型 的 功能 和 用 法 。 

@ 演练 各 种 类 型 。 





Python 的 类 型 分 类 


Python 不 同 于 其 和 言 的 一 个 重要 概念 是 : Python 中 的 一 切 均 为 对 象 ， A 多 面向 对 
象 语言 也 有 这 样 的 概念 ， 但 是 Python 面向 对 象 的 原理 和 其 他 语言 不 同 ， 主 要 有 两 点 : 


@@ 所 有 数值 都 封装 
@ 所 有 东西 都 是 对 象 ， 
Python 的 解释 器 内 建 数 个 大 类 ， 共 
型 ， 如 数值 、 
列 出 Python 内 建 的 常 


其 他 类 型 则 较 少 使 用 。 
见 类 型 。 


序列 等 ， 


表 3-1 


到 特定 的 对 象 中 ，Python 不 存在 像 C 中 的 int 这 样 的 简单 类 型 。 
包括 代码 本 身 也 被 封装 到 对 象 中 。 


-十 几 种 数据 类 型 ， 


- 些 类 别 包含 最 常 


后 面 几 节 将 详细 描述 这 些 最 常用 的 类 型 。 


Python 内 置 类 型 








分 类 








类 型 名 称 


描述 








NoneType 





空 对 象 








数值 





序列 









IntType 








StringType 


FloatType 
ComplexType, 





字符 串 





UnicodeType 


Unicode 字符 串 





ListType 


列表 





TupleType 


元 组 





RangeType 





BufferType 





Tange0 函 数 返 回 的 对 象 
buffer0 函 数 返 回 的 对 象 




















见 的 对 象 类 











( 续 表 ) 
































描述 
字典 
集合 类 型 
BuiltinFunctionType 内 建 函 数 
BuiltinMethodType 内 建 方法 
2 i ClassType 类 
用 罗 用 二 党 FunctionType 用 户 定 义 函 数 
InstanceType 类 实例 
ModuleType 模块 
ClassType 类 定义 
InstanceType 类 实例 
FileType 文件 对 象 
字 节 编译 码 
FrameType 执行 框架 


内 部 类 型 异常 的 堆栈 跟踪 
由 扩展 切片 操作 产生 
在 扩展 切片 中 使 用 
在 表 3.1 所 罗列 的 类 型 中 ，None 和 数值 类 型 构造 和 使 用 较为 简单 ， 为 简单 类 型 。 内 部 类 
型 在 解释 器 调用 的 时 候 使 用 ， 程 序 员 一 般 较 少 使 用 。 本 章 主要 讨论 的 是 简单 类 型 以 及 序列 类 
型 、 映 射 和 集合 类 型 。 








简单 类 型 


Python 有 6 个 不 同 的 简单 类 型 ， 分 别 是 : 

@ 布尔 类 型 (bool 类 型 ) : 用 于 逻辑 运算 和 比较 的 类 型 。 

整数 类 型 (int 类 型 ) : 类 似 于 其 他 计算 机 语言 的 int 类 型 。 

浮 点 类 型 (float 类 型 ) : 用 来 表示 小 数 的 类 型 。 

复数 类 型 (complex 类 型 ) : 用 来 表示 复数 的 类 型 ， 包 括 实数 和 虚数 两 部 分 。 
None 类 型 : 空 类 型 ， 用 来 表示 空 或 者 无 返回 值 。 


3.2.1 布尔 类 型 

Python 中 最 简单 的 内 置 类 型 是 bool 类 型 ， 该 类 型 包括 的 对 象 仅 可 能 为 True 或 False。 这 
个 类 型 主要 用 于 布尔 表达 式 。Python 提供 一 整套 布尔 比较 和 逻辑 运算 。 

布尔 运算 主要 有 : 

@ 小 于 ， 比 如 i<100。 
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小 于 等 于 ， 比 如 i<=100。 
大 于 ， 比 如 这 100。 

大 于 等 于 ， 比 如 这 =100。 
相等 ， 比 如 二 -100。 
不 等 于 ， 比 如 il=100。 


逻辑 运算 符号 包括 : 


@ 逻辑 非 ， 比 如 notb。 
@@ 逻辑 与 ， 比 如 (b<100) and (b>50) 。 
@ 这 辑 或 ， 比 如 (b<500) or (b>100) 。 


逻辑 运算 符 的 优先 级 低 于 单独 的 比较 运算 符 ， 所 以 在 运用 的 时 候 ， 条 要 用 括号 特别 语 
明 运 算 的 优先 级 。 


实际 上 ， 在 Python 中 ， 不 只 可 以 用 布尔 类 型 来 表示 真 和 假 ， 也 可 以 用 来 其 他 类 型 表示 真 


和 假 ， 还 可 以 参加 逻辑 运算 。 例 子 3.1 是 Python 真 假 判 断 的 例子 。 
例子 3.1 Python 的 真 假 判 断 
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01 >>> a=0.0 

02 >>> print(not a) 
D3 True 

04 >>> a=1.0 

05 >>> print(not a) 
06 False 

07 >>> a=0 

08 >>> print(not a) 
D9 Trus 

10 >>> a=1 

11 >>> Print(not a) 
12° FalLse 

13 >>> a=[] 

14 >>> Print(not a) 
15 True 

16 >>> a=[1] 

17 >>> Print(not a) 
18 False 

19 >>> a=0.0 

20 >>> print(True and a) 
2 BW fh) 

22 >>> print(True or a) 


23 TXUue 


24 >>> a=0 

25 >>> print(False and al) 
26 False 

27 >>> a=1l 

28 >>> print(False and a) 
29 False 

30 >>> Print(True and a) 
SE 


在 Python 中 ， 除 了 False 表示 假 以 外 ，[]、 人 、0、””、0、0.0、None 这 些 均 表 示 假 。 而 
其 他 均 为 真 。 例 子 3.2 演示 了 用 0 和 0.0 等 来 和 布尔 类 型 来 进行 布尔 运算 的 情况 。 在 Python 
中 ， 任 何 类 型 都 可 以 类 似 于 布尔 类 型 进行 布尔 运算 ， 只 不 过 需要 牢记 在 Python 中 ， 不 只 是 0 
为 假 ， 还 包括 []、{}、0 等 各 种 等 同 于 假 的 情况 。 





对 于 布尔 运算 表达 式 ，Python 并 不 是 将 整个 表达 式 逐 步 执行 ， 例 如 类 似 于 exprl and 
expr2 的 运算 ， 若 exprl 为 假 则 直接 返回 exprl1， 而 不 会 去 处 理 expr2， 也 就 是 说 如 果 exprl 为 
0、0.0、 空 列表 等 各 种 为 假 的 情况 ， 该 表达 式 直接 返回 exprl， 而 不 会 去 处 理 expr2， 只 有 当 
exprl 为 真 的 时 候 ， 才 会 去 处 理 expr2， 返 回 expr2 的 值 。 对 于 or 运算 (exprl or expr2) 来 
说 ， 如 果 exprl 为 真 ， 那 么 总 是 直接 返回 exprl， 而 不 会 去 处 理 expr2， 只 有 当 exprl 为 假 的 
时 候 ， 才 会 去 处 理 expr2， 并 返回 expr2 的 值 。 

对 于 一 个 组 合 的 表达 式 : condition and exprl or expr2， 会 有 怎样 的 结果 呢 ? 该 表达 式 的 
结果 有 如 下 几 种 情况 : 


@ 。 condition 为 真 ，exprl 为 真 ，expr2 不 做 处 理 ， 直 接 返回 exprl 。 
@ 。 condition 为 假 ，exprl 不 做 处 理 ， 直 接 返 回 expr2。 
@ condition 为 真 ，exprl 为 假 ， 直 接 返 回 expr2。 


从 上 面 的 分 析 可 以 看 出 ， 该 组 合 表达 式 的 返回 值 有 3 种 可 能 ， 取 决 于 condition 和 exprl 
这 两 个 表达 式 的 真 假 组 合 ， 只 有 当 两 个 表示 式 全 为 真 的 时 候 ， 才 返回 exprl， 其 他 情况 返回 
expr2。 

需要 注意 的 是 ， 该 表达 式 还 作为 Python 一 个 惯用 的 赋值 语句 ， 该 惯用 赋值 语句 假定 
exprl 为 真 ， 那 么 condition and exprl or expr2 表达 式 的 结果 可 以 简化 为 : 

@@ condition 为 真 ， 返 回 exprl 。 

@@ condition 为 假 ， 返 回 expr2。 


在 这 种 情况 下 ， 使 用 该 语句 就 可 以 替换 一 些 用 站 来 判断 赋值 的 简单 语句 。 例 子 3.2 给 出 
了 组 合 表达 式 的 使 用 演示 。 





























31 


例子 32 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
区 二 
这 过 


组 合 表达 式 的 使 用 
>>> a=3 
>>> IE a==3: 
SEE2="TE 3 3 
- else: 


str2="it is 2" 


>>> print (str2) 

本 

>>> strl= a==3 and "it is 3" or "it is 2" 
>>> print (str1) 

el 

>>> 


上 面 代码 第 2~6 行 是 一 个 站 .else 判断 语句 ， 用 来 判断 如 果 a 等 于 3 就 为 str2 赋值 “it is 
3”， 否 则 赋 为 “it is 2”。 在 第 9 行 ， 使 用 组 合 表达 式 替 代 if..else 语句 来 达到 同样 的 效果 ， 
而 代码 简洁 很 多 。 

这 种 用 法 完全 是 基于 假定 exprl 为 真 的 情况 下 使 用 的 ， 所 以 当 exprl 为 假 的 时 候 ， 是 不 
能 按照 这 种 方法 使 用 的 。 例 子 3.3 给 出 了 组 合 表达 式 惯 用 法 不 适用 的 情况 。 


例子 3.3 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
hh 





组 合 表达 式 惯 用 法 的 意外 情况 


>>> a=3 
>>> if a==3: 
value=0 
:Le 


value=1 


>>> print (value) 

0 

>>> value= a==3 and 0 or 1 
>>> print (value) 

并 


在 例子 3.3 中 ， 第 2~6 行 是 一 个 让..else 语句 ， 用 来 说 明 当 a 等 于 3 的 时 候 value=0， 否 


则 value= 


1， 但 是 在 第 9 行 代码 中 ， 我 们 使 用 该 表达 式 惯用 法 却 得 到 和 直 ..else 语法 不 相同 的 








结果 ， 这 是 因为 该 惯用 法 的 假设 expr2 为 真 的 条 件 不 存在 了 。 














在 C 语言 中 ，cond? true expr: false expr 的 用 法 是 当 cond 为 真 的 时 候 直 接 返 回 
true expr， 和 否则 返回 false_ expr。Python 的 cond and true _expr or false_expr 的 用 法 在 形式 : 
上 和 该 用 法 很 相似 ， 但 是 特别 要 注意 ， 只 有 当 true_expr 为 真 的 时 候 Python 站 
和 C/C++ 中 的 语义 等 价 。 





3.2.2 ”整数 类 型 

















Python 用 来 存储 整数 的 类 型 的 就 是 整数 类 型 。 例 如 ，Python 的 数值 类 型 都 支持 加 、 减 、 


乘 、 除 、 宠 、 求 模 等 各 种 运算 ， 与 Python 2X 略 有 不 同 的 是 Python 3.X 的 int 类 型 合并 了 
Python 2.X 的 int 类 型 和 long 类 型 : 


@@ 加: a=1+3 
减 : a=1-3 

乘 : a=1*3 

: a=1/3 

窜 : a=1**3 

求 模 : a=1%3 


上 述 数值 运算 中 索 运 算 优先 级 最 高 ， 乘 除 和 求 模 同一 优先 级 ， 加 减 最 后 。 需 要 调整 优先 


eeee e 
灌 


级 时 可 以 通过 加 括号 来 实现 ， 例 如 : 


需 宇 


A=3+4*5**2/6 
如 果 先 要 计算 加 ， 然 后 计算 乘 ， 可 以 使 用 如 下 方法 : 
A=((3+4) *5) **2/6 


程序 员 一 般 在 十 进 制 系统 中 工作 。 有 时 其 他 进 制 的 系统 也 相当 有 用 ， 比 如 计算 机 就 是 基 


- 进 制 的 。Python 可 以 提供 对 八进制 和 十 六 进 制 数字 的 支持 。 要 通知 Python 应 该 按 八进制 


数字 常量 处 理 数字 ， 只 需 将 一 个 零 加 上 一 个 。 附 加 在 数字 前 面 。 将 一 个 零 加 上 一 个 x 附加 在 
数字 的 前 面 是 告诉 Python 按 十 六 进 制 数值 常量 处 理 数 字 ， 例 如 : 





>>> print (13) 

b 

>>> print (0013) 
LI 

>>> print (0x13) 
19 


3.2.3 浮 点 数 类 型 


型 。 


所 谓 浮 点 数 类 型 ， 就 是 小 数 。 在 Python 中 ， 带 圆 点 符号 的 数值 都 会 被 认为 是 浮 点 数 类 
例如 : 
>>> a=1. 


>>> type (a) 


<elass "fioat’> 


3.2.4 复数 类 型 





复数 类 型 ， 在 其 他 计算 机 语言 中 很 少见 。 复 数 是 数学 里 的 一 个 概念 ， 在 科学 计算 中 ， 有 
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重要 的 用 处 ， 在 形式 上 有 实数 和 虚数 两 部 分 ， 在 Python 中 由 float 类 型 表示 ， 虚 数 是 -1 的 
方 根 的 倍数 ， 用 字母 j 表示 ， 例 如 : 


>>> c=2+3j 











nl 




















>>> print(c) 
(2+3j) 
3.2.5 None 类 型 


None 类 型 是 Python 特殊 的 常量 ， 表 示 空 ， 等 同 于 C/C++ 中 的 null， 大 部 分 时 候 用 来 判 
断 函 数 或 者 对 象 方 法 的 返回 结果 ， 无 返回 结果 即 为 None。 








简单 类 型 的 运算 


除了 支持 四 则 运算 和 求 模 、 求 寡 等 运算 外 ，Python 还 支持 求 补 、 左 移 、 右 移 、 按 位 和 、 
按 位 异 或 、 按 位 或 等 各 种 运算 。 例 子 3.4 列举 了 各 种 位 运算 。 
例子 3.4 ”Python 的 位 运算 


01 >>> a=0x13 
02 >>> ~a 

D3 =20 

04 >>> a>>2 
05 4 

06 >>> a<<3 

) tir Pea 9 sp 

08” 5>>> a*3 

09 16 

10 >>> a&0x01 
ES 

12 >>> a^0x01 
T1308 

14 >>> alO0x01 
ee 


上 面 的 代码 演示 了 各 种 位 运算 。~ 符 号 代表 求 补 运算 。 求 补 运算 不 考虑 符号 位 ， 对 它 的 
原 码 各 位 取 反 ， 并 在 末 位 加 1 即 可 。>> 符 号 代表 向 右 位 移 ，<< 代 表 向 左 位 移 ，^ 符 号 代表 按 
位 异 或 〈 两 个 整数 根据 二 进 制 位 进行 异 或 操作 ) ，& 符 号 代表 求 和 操作 《两 个 整数 根据 二 进 
制 位 进行 求 和 操作 ) ，| 符号 代表 按 位 或 操作 。 


@ ”运算 的 优先 级 ， 宕 运算 最 高 ， 乘 除 位 运算 其 次 ， 加 减 最 后 。 
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@ 在 Python 中 ， 若 不 同 数值 类 型 在 单个 表达 式 中 混合 出 现时 ， 则 会 根据 需要 将 表达 式 
中 的 所 有 操作 数 转换 为 最 复杂 的 操作 数 的 类 型 ， 作 为 返回 值 的 类 型 。 复 杂 度 的 顺序 
是 int、float、complex。 下 面 给 出 一 个 简单 的 示例 : 


>>> 1//3 

0 

>>> L073 
Ds3333333333333333 
>> T0773 

0.0 

站 


> 1- 0%3 


常量 类 型 


简单 类 型 均 为 常量 类 型 ， 也 就 是 说 这 些 类 型 对 象 一 旦 被 创建 ， 其 值 就 不 能 被 更 改 。 我 们 
使 用 等 于 符号 (=) 进行 新 的 赋值 操作 时 ， 实 际 上 ，Python 解析 器 是 创建 了 新 的 简单 类 型 ， 
并 将 该 变量 名 和 新 创建 的 对 象 关 联 起 来 。 使 用 Python 的 内 置 id0 函 数 〈 用 来 查看 对 象 在 内 存 
中 的 编号 的 函数 ) ， 就 可 以 清楚 地 看 到 这 一 点 。 例 子 3.5 将 演示 这 些 操作 。 


例子 3.5 ” 整 型 类 型 的 创建 和 更 改 


01 >>> a=3 

02 >>> id(a) 
03 1945071136 
04 >>> a=4 

05 >>> Tdta) 
06 1945071168 
07 >>> b=3 

08 >>> id(b) 
09 1945071136 
10 >>>a=b+2 
11 >>>id(a) 
12 1945071200 


在 例子 3.5 中 ，a 刚 开 始 等 于 3， 它 的 id 结果 为 1945071136， 更 改 a=4 时 ， 它 的 id 结果 为 
1945071168， 这 表明 a 所 指向 的 对 象 发 生 了 变化 ， 因 为 a=4 这 个 操作 并 没有 让 原来 的 3 更 改 成 
4， 而 是 新 创建 一 个 数值 为 4 的 对 象 并 让 a 指向 这 个 新 对 象 。 在 例子 3.5 的 第 10~12 行 ，b+2 的 
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结果 为 5，a 又 指向 了 这 个 新 对 象 ， 而 原来 的 数值 对 象 4 仍然 存在 内 存 中 ， 并 没有 改变 。 





序列 类 型 


在 实际 编写 Python 程序 的 时 候 ， 通 常 要 处 理 复杂 的 逻辑 ， 从 而 带 来 复杂 的 数据 结构 。 如 
果 使 用 简单 类 型 来 表达 复杂 的 数据 ， 就 会 存在 大 量 的 简单 数据 对 象 ， 存 放 和 管理 它们 将 成 为 
大 问题 。 容 器 类 型 就 是 用 来 存放 和 管理 各 种 对 象 的 类 型 ， 使 用 容器 类 型 ， 就 可 以 根据 程序 的 
需求 把 需要 处 理 的 复杂 数据 放 到 容器 中 。 容 器 提供 了 一 系列 的 方法 ， 可 以 用 来 访问 和 管理 这 
些 数据 。 

容器 类 型 可 以 分 为 两 种 : 


@ 序列 容器 ， 一 般 也 被 称 为 顺序 容器 ， 就 是 说 该 容器 是 将 存放 的 数据 按 顺序 放置 在 内 
存 区 中 ， 如 果 一 个 新 元 素 被 插入 或 者 已 存 元 素 被 删除 ， 其 他 在 同一 个 内 存 块 的 元 素 
就 必须 向 上 或 者 向 下 移动 来 为 新 元 素 提供 空间 ， 或 者 填充 原来 被 删除 的 元 素 所 占 的 
空间 ， 这 种 移动 影响 了 效率 。 

@ ”关联 容器 ， 根 据 每 个 节点 来 存放 元 素 ， 容 器 元 素 的 插入 或 删除 只 影响 指向 节点 的 指 
向 ， 而 不 是 节点 自己 的 内 容 ， 所 以 当 有 数据 插入 或 删除 时 ， 元 素 值 不 需要 移动 。 


在 Python 中 ， 序 列 容器 类 型 主要 有 6 种 ， 即 string、unicode、list (列表 ) 、tuple (元 
组 ) 、buffer、range; 关联 容器 类 型 主要 是 字典 类 型 和 集合 类 型 。 





)。 O“ 列 表 类 型 


list 类 似 于 C 中 的 数组 、C++ 中 的 vector， 是 用 来 顺序 存储 数据 的 容器 ， 比 如 说 ， 一 周 七 
天 ， 可 以 表示 为 : 


>>> week=[ 'Monday', 'Tuesday', 'Wednesday', 'Thursday' ,'Friday', 























'Saturday', 'Sunday'] 


第 2 章 曾 简要 介绍 过 list， 本 节 会 详细 介绍 它 的 功能 和 方法 。 


3.6.1 创建 list 
创建 list 的 方法 很 简单 ， 使 用 中 符号 ， 中 间 的 元 素 用 逗号 隔 开 。 例 如 : 


A=[1,2,3] 
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3.6.2 list 的 元 素 访问 
可 以 通过 下 标 来 访问 list， 下 标 从 0 开始 ， 不 同 于 其 他 语言 的 是 增加 了 负 下 标的 访问 ，-1 
代表 最 后 一 个 元 素 ，-2 代表 倒数 第 二 个 元 素 ， 以 此 类 推 。 下 面 给 出 一 个 简单 的 例子 : 


>> a 





>>> a[0] 
>>> a 2] 
4 


下 标 不 只 可 以 访问 list 的 单个 元 素 ， 也 能 通过 切片 操作 获得 一 个 list 的 子 list， 可 以 通过 
下 标 来 指定 范围 ， 一 个 指定 开始 位 置 ， 一 个 指定 结束 位 置 ， 中 间 加 冒号 分 隔 。 开 始 位 置 默认 
为 0， 结 束 位 置 默 认为 -1。 需 要 特别 注意 的 是 : 指定 的 开始 位 置 包括 开始 元 素 本 身 ， 而 结束 
位 置 不 包括 结束 位 置 本 身 。 例 子 3.6 使 用 切片 操作 获得 列表 的 子 列表 。 
例子 3.6 子 列表 的 访问 


01 >>> a=[1,2,3,4,5] 
O02 >>>° al2:44 
D332 

04 >>> a[:] 

D5 Ll 2r 3 rr Si 
06 >>> a[1:] 

DF lr Sr A Sl 

08” >>> ‘al=3:=1] 

09 [3, 4] 

10 >>> 





3.6.3 ”列表 运算 

list 容器 支持 一 系列 的 运算 ， 包 括 加 法 、 乘 法 、 大 小 比较 等 运算 。 要 查看 list 支持 哪些 运 
算 ， 可 以 直接 在 IDEL 里 面 输入 help(list)。help 是 Python 的 自省 功能 之 一 ， 可 以 通过 help0 
函数 查看 Python 对 象 的 一 些 帮助 信息 。 例 子 3.7 通过 help 自省 功能 ， 获 得 了 列表 的 帮助 信 
息 。 


例子 3.7 通过 help 查看 list 支持 的 运算 





>>> help (list) 


Help on class list in module builtin 


class list(object) 
DLstt > new Liat 
| list(iterable) -> new list initialized from sequence's items 
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Methods defined here: 


a We ey 
Xx. add (y) <==> x+y 


_ Ccontains (...) 


XxX. contains (y) <==> y in x 


delitem (=) 
XxX._ delitem (y) <==> del x[y] 


"delsliceo (ee) 


XxX._ delslice (i, j) <==> del x[i:j] 


Use of negative indices is not supported. 


GE 
XxX. eq __(y) <==> x==y 


ge | fe | 
XxX._ ge __(y) <==> x>=y 


_ getattribute (...) 


X. getattribute _('name') <==> x.name 


getitem (ee) 
x._ getitem _(y) <==> x[y] 


# 省 略 部 分 结果 


在 Help0 函 数 打印 出 来 的 list 对 象 信息 中 ， 类 似 于 _xxx_ 这些 函数 都 是 list 对 象 内 建 的 
一 些 类 的 特殊 方法 ， 其 中 大 部 分 函数 为 list 的 运算 操作 符 函 数 (类 似 于 C++ 中 的 
operation) 。 凡 是 支持 特殊 函数 的 对 象 ， 也 就 都 支持 对 应 的 运算 。 从 上 面 的 帮助 信息 可 以 发 
现 ，list 主要 支持 以 下 运算 操作 : 





实现 了 _add 函数 ，list 支持 加 法 运算 。 
实现 了 _contains “函数 ，list 支持 ip 操作。 
实现 了 _ eq 函数 ，list 支持 一 判断 。 
实现 了 _ ge_ 函数 ，list 支持 > 一 判断 。 
实现 了 gt 函数，list 支持 > 判断 。 

实现 了 _iadd 函数，list 支持 二 操作 。 
实现 了 _ imul 函数 ，list 支持 *= 操 作 。 
实现 了 _le 函数，list 支持 < 操作 。 









例子 3.8 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
2 
a 
14 
15 
16 
Dn 
18 
六 
20 
过 于 
之 也 
23 
24 
25 
26 
27 
28 
2 
30 


上 面 是 从 help 的 帮助 信 
帮助 信息 


实现 了 _ lt 函数，list 支持 < 操作 。 
实现 了 mul 函数，list 支持 * 操 作 。 
实现 了 ne 函数 ，list 支持 != 操 作 。 


实现 _rmul 函数 ，list 支持 被 乘 操作 。 


还 有 一 些 其 他 的 方法 ， 比 如 _getitem ， 则 是 通过 下 标 访问 该 对 象 的 实现 方法 ， 在 前 面 
已 经 讨论 了 操作 方法 ， 这 里 不 再 重复 叙述 。 





息 中 获得 的 有 关 list 支持 的 运算 信息 ， 可 以 在 IDEL 里 根据 这 


慌 





对 列表 运算 进行 尝试 。 (例子 3.8 是 自省 出 来 的 列表 操作 运算 信息 。) 
list 的 操作 运算 

>>> a=[1,2,3] 

>>> a+4 

Traceback (most recent call last): 


File "<stdio>", line 1, in ? 
TypeError: can only concatenate list (not "int") to list 
>>> a=[1,2,3] 
>>> at+[4,5,6] 

Lr Zr BeAr Sr el 
>>> a+3 
Traceback (most recent call last): 

File "<stdio>";, line. ls in,? 
TypeError: can only concatenate list (not "int") to list 
>>> 4 in a 
False 
Er et, 

True 

>>> a==[4,5,6] 
False 

>>> a==[1,2,3] 
True 

>>> a>[4,5,6] 
False 

>>> a>[1,2,1] 
True 

>>> a>=[1,2,1] 
True 

>>> a+=[4,5] 
>>> print (a) 

| Dr ee te | 


a 
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才 毕 
32 
S33 
34 
EE 
36 
3 
38 
39 
40 
41 
42 
43 
44 
45 


ror Ar ar or lr ww 人 SU 
>>> print (a) 

DP Ve 

>>> a*=2 

>>> print(a) 

Be FR nL ee | 
>>> a!=[3,4,5] 

True 

宇多 > 

Tr Se Sr Ly 2 Br Dr Lr Zr dr Se rr dr dr Bl 
Eb 





Traceback (most recent call last): 

File "<stdio>", line 1, in ? 
TypeError: can't multiply sequence by non-int 
>>> 


例子 3.8 调用 了 Python 的 各 种 运算 操作 。 需 要 注意 的 是 ， 各 操作 运算 的 对 象 类 型 有 限 
制 。 例 如 ， 第 2~12 行 ， 调 用 list 的 加 法 加 一 个 整数 就 触发 了 以 外 ，list 的 加 法 对 象 也 只 能 是 
list。 第 13~16 行 ， 演 示 list 的 in 操作 。 在 Python 的 语法 中 ， 关 键 词 in 表示 存在 的 意思 。3 in 
a 表示 判断 3 是 否 在 a 中 。in 的 反 用 法 是 not mn。 第 30~35 行 ， 演 示 list 的 乘法 。list 的 乘法 是 
复制 list 中 元 素 的 快捷 方法 ， 需 要 复制 几 份 就 乘 以 几 。 





3.6.4 


方法 的 信息 。 方 法 名 称 前 面 不 带 _ 符号 的 方法 就 是 list 的 公用 方法 。 例 子 3.9 是 摘录 了 list 


列表 的 方法 
除了 运算 操作 外 ， 列 表 还 支持 一 些 其 他 的 操作 方法 ， 同 样 可 以 使 用 help(ist) 来 获得 那些 














省 信息 中 有 关 列 表 的 公用 方法 。 
例子 3.9 查看 list 的 公用 方法 





>>> help (list) 


Help on class list in module _builtin : 


class list (object) 
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list() -> new list 


list(iterable) -> new list initialized from sequence's items 


Methods defined here: 
append(...) 
L.append (object) -- append object to end 








站 让 在 蕊 有 有 起 二 
L.count (Value) -> integer -- return number of occurrences of Value 
extend(...) 
L.extend (iterable) -- extend list by appending elements from the 
iterable 
index(...) 
L.index(value, [start, [stop]]) -> integer -- return first index of 
value 
nertt ey 
| L.insert (index, object) -- insert object before index 
| 
| pop(...) 
L.pop([index]) -> item -- remove and return item at index (default 
last) 
remove(...) 
L.remove (value) -- remove first occurrence of value 
reverse(...) 
L.reverse() -- reverse *IN PLACE* 
Sertwe se 
L.sort (cmp=None, key=None, reverse=False) -- stable sort *IN PLACE*; 
cmp(rr MI = = OE 
Data and other attributes defined here: 
_new = <built-in method _new_ _ of type object> 
T. new (S, ...) -> a new object with type S, a subtype of T 








从 中 我 们 可 以 看 到 ，list 有 9 种 不 同 用 途 的 公用 方法 : 


@ append() 方 法 ， 在 列表 后 增加 对 象 。 

@@ count() 方 法 ， 统 计 列 表 元 素 的 个 数 。 

@ extend( 方 法 ， 将 一 个 序列 对 象 转换 成 列表 ， 并 增加 到 该 列表 后 面 。 

@@ index() 方 法 ， 返 回 查找 值 的 第 一 个 下 标 ， 如 果 找 不 到 查找 值 ， 则 抛 出 错误 。 
@ insert0 方 法 ， 插 入 对 象 到 指定 的 下 标 后 面 。 

@ pop0 方 法 ， 弹 出 列表 指定 下 标的 元 素 。 不 指定 下 标 时 ， 弹 出 最 后 一 个 元 素 。 
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@。 remove( 方 法 ， 删 除 列 表 指 定 的 值 ， 有 多 个 指定 的 值 在 列表 中 时 删除 第 一 个 。 

@ reverse() 方 法 ， 将 列表 元 素 顺 序 倒 置 。 

@ sort( 方 法 ， 对 列表 进行 排序 ， 排 序 的 方法 可 以 在 sort 的 参数 中 指定 ， 默 认 从 小 到 大 
排序 。 


运用 上 面 的 公用 方法 ， 能 够 方便 对 list 做 各 种 操作 ， 并 且 能 够 用 list 模拟 其 他 的 数据 类 
型 ， 比 如 堆栈 (stack) 、 队 列 〈queue) ， 如 例子 3.10 所 示 。 


例子 3.10 ”用 list 模拟 堆栈 和 队列 























01 >>> stack = [3, 4, 5] 

02 >>> stack.append(6) 

03 >>> stack.append(7) 

04 >>> stack 

D5 Sa Se Gy TI] 

06 >>> stack.pop() 

DIE 7 

08 >>> stack 

[1b: 0 ke Se | 

10 >>> stack.pop() 

T°6 

12 >>> stack.pop() 

135 及 

Ta >> Stack 

| bc | 

16 >>> queue = ["Eric", "John", "Michael"] 
17 >>> queue.append ("Terry") 
18 >>> queue.append ("Graham") 
19 >>> queue.pop (0) 

20 "Eric" 

21 >>> queue.pop (0) 

22° ohn! 

23 >>> queue 

24 ['Michael', 'Terry', 'Graham'] 


第 1~15 行 模拟 的 是 堆栈 的 push 和 pop 操作 。 堆 栈 的 特点 是 “先进 后 出 ”， 使 用 list 的 
pop0 方 法 ， 将 列表 的 最 后 一 个 元 素 弹出 ， 就 可 以 模拟 堆栈 的 操作 。 第 16~24 行 模拟 的 是 队列 
的 操作 。 队 列 的 特点 是 “先进 先 出 ”， 通 过 pop(0 方 法 弹出 列表 第 一 个 元 素 〈 下 标 为 0) ， 就 
可 以 模拟 队列 的 “先进 先 出 ”。 























3.6.5 “列表 的 内 置 函 数 (range、filter、map) 
列表 除了 可 以 使 用 运算 操作 、 自 带 的 公用 函数 外 ， 还 可 以 使 用 Python 内 置 的 rangeO、 
filter0、mapO、reduce 函数 。 这 4 个 函数 有 着 不 同 的 用 途 。 
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(1) range0 函 数 的 作用 是 生成 一 个 整 型 序列 ， 有 3 个 参数 : 开始 数值 〈start) 、 结 束 数 
值 (stop) 、 累 进 大 小 〈step ) ， 开 始 数值 默认 为 0， 累进 大 小 默认 为 1， 例 如 : 

>>> list(range(10)) 

和 全 站 让 帮 中 

>>> list(range(1,10,2)) 

[1, 3, 5, 7, 9] 

>>> 

(2) filter 过 滤 函 数 的 作用 是 对 列表 进行 过 滤 ， 只 保留 满足 fter0 函 数 指定 要 求 的 元 素 ， 
例如 : 

>>> def f(x): return x %2 !=0 and x %3 != 0 

>>> list(filter(f, range(2, 25))) 

| /So he 7 rE | 


(3) map 映射 函数 的 作用 是 对 列表 的 每 一 个 元 素 映射 到 map0 函 数 指定 的 操作 ， 例 如 : 


>>> def cube (X) : return x*x*x 

















>>> list(map(cube, range(l1, 11))) 
[1, 8, 27, 64, 125, 216, 343, 512, 729, 1000] 


map 同时 可 以 处 理 多 个 列表 ， 但 是 需要 注意 的 是 map 处 理 多 个 列表 时 ， 这 些 列 表 的 元 素 
应 该 相同 ， 否 则 就 会 抛 出 异常 ， 例 如 : 


>>> def addl(a,b): 


return a+b 


>>> list(map(add, [1,2,3],[4,5,6])) 

| | 

>>> list(map(ad, [1,2,3],[4,5])) 

Traceback (most recent call last): 
Eile “<stdio>™ Line dr En 2 


NameError: name "ad' is not defined 


(4) reduce 函数 是 reduce(function，sequence，starting_ value)， 它 对 sequence 中 的 item 
顺序 迭代 调用 function， 如 果 有 starting_value， 还 可 以 作为 初始 值 调用 ， 例 如 可 以 用 来 对 
list 求 和 : 


>>> def add(x,y): return x + Y 















































>>> reduce(add, range(1, 11)) 

55 

>>> reduce(add, range(1, 11), 20) 
75 


43 


3.6.6 ”列表 推导 式 
使 用 过 滤 和 映射 函数 去 生成 特定 要 求 的 列表 ，Python 提供 了 一 个 更 简洁 的 方法 一 一 
列表 推导 式 (List Comprehension) 来 完成 这 个 工作 ， 一 个 List Comprehension 通常 
达 式 以 及 一 个 或 者 多 个 for 语句 和 if 语句 组 成 ， 语 法 形式 类 似 于 [ <exprl> for k in L if 
<expr2> ]，for k in L 是 对 工 列表 的 循环 ，if expr2 是 用 expr2 对 循环 的 元 素 k 做 过 滤 处 
理 ，exprl 则 是 返回 表达 式 。 例 子 3.11 列 出 了 列表 推导 式 的 具体 用 法 。 
例子 3.11 List Comprehension 的 用 法 


对 寺 



































1 一 个 表 
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01 
02 
03 
04 
05 
06 
07 
08 
09 
10 


>>> a=[1,2,3,4,5] 

> or nal 

[S77 E07 157 207 25] 

>>> [kK*5. Eor Kk Lina ite al=3] 
Ese 10r 15, 20r 25] 

>>> [k*5 for k in a if k!=3] 
Sr 1L0r 207 251 

>>> b=EA od en 

>>> [k.upper () for k in b] 
EAD Bu SCD rs VE 


这 种 方法 将 过 滤 和 映射 操作 合 二 为 一 ， 代 码 简洁 很 多 ， 可 读 性 更 强 。 


元 组 类 型 


元 组 〈tuple) 类 型 通过 一 对 括号 “0” 来 表示 ， 元 组 是 常量 的 list， 使 用 help(tuple)， 可 
以 获得 tuple 的 自省 信息 。 例 子 3.13 就 是 使 用 该 方法 获得 tuple 的 自省 信息 。 
例子 3.12 tuple 的 help 信息 


>>>help (tuple) 


Help on class tuple in module _ builtin : 


class tuple (object) 





tuple() -> an empty tuple 

tuple (iterable) -> tuple initialized from iterable's items 

If the argument is a tuple, the return value is the same object. 
Methods defined here: 


Nada 
x add  {(y) <==> xX+Yy 
Contains (...) 
= RE 
eq (...) 


el (MN) < 
ge (se) 

xX._ ge __(y) <==> x>=y 
getattribute ‘(==:) 

x. getattribute ('name') <==> x.name 
getiteme (ve:) 

x._ getitem _(y) <==> x[y] 


_ getnewargs (...) 


XxX.__getslice (i, j) <==> x[i:j] 


1 

1 

1 

1 

1 

| 

| 

| 

Lgertsliice ay 
1 

| Use of negative indices is not supported. 
1 

| 

| 

| 

| 


SR 

x._gt _ _ (yY) <==> x>y 
—hash (2 

x._ hash _ () <==> hash (x) 
ters (ee) 


X. iter () <==> iter (x) 
ne 
xX._ le _(y) <==> x<=y 
den (===) 
x._ len () <==> len (x) 
TP 
X. lt __(y) <==> x<y 
_ml (...) 
X. mul (n) <==> x*n 
ne re 
x._ ne __(y) <==> x!=y 
人 和 下 
XxX.__repr __() <==> repr (x) 
_rmul (...) 
Xx._ rmul _(n) <==> n*x 
Data and other attributes defined here: 
new = <built-in method new__ of type object> 


T._ new (S, ...) -> a new object with type S, a subtype of T 


通过 例子 3.12 的 help 信息 ， 可 以 看 出 tuple 和 list 的 区 别 : 


@@ tuple 和 1list 一 样 ， 支 持 下 标 和 切片 操作 (都 实现 getitem 和 getslice )。 
@ tuple 与 list 不 同 ， 不 支持 通过 下 标 和 切片 操作 更 改元 素 和 子 列 表 (tuple 没有 实现 
setitem 和 setslice ). 
@@ tuple 支持 和 list 一 样 的 比较 运算 和 加 乘 运 算 ， 但 是 不 支持 +=、*= 操 作 (因为 tuple 
为 常量 类 型 ， 这 两 个 操作 都 是 更 改 自 身 的 操作 ) 。 
@ tuple 不 支持 list 的 9 种 公用 方法 。 
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元 组 是 常量 类 型 的 list， 和 列表 的 区 别 在 于 ， 元 组 对 list 的 那些 更 改 自 身 元 素 的 操作 和 方 
法 都 不 支持 ， 元 组 一 旦 在 内 存 中 创建 ， 就 不 可 被 更 改 ， 这 是 它 和 list 最 大 的 区 别 ， 而 其 他 使 
月 方法 则 和 列表 一 样 ， 例 如 : 


Sx Sellyror a dArs 
































ee] 





>>> a[0] 
>>> a[3] 


>>> b=a+(7,8) 

>>> print (b) 

ER 27 3 AP Sy To BY 

>>> b=a*2 

>>> print (b) 
人 


字符 串 类 型 


字符 串 可 以 看 成 特殊 的 元 组 ， 可 以 使 用 单 引 号 或 者 双 引 号 来 表示 字符 串 ， 例 如 : 


>>> strl="'word' 


>>> str2="hello" 


对 于 特殊 字符 ，Python 使 用 转 义 字符 反 斜 杠 (\) 来 表示 。 表 3-2 列 出 了 各 种 转 义 字符 。 
表 3-2 转 义 字符 





























Yr 回 车 

At 水 平 制 表 符 

\ooo ooo 表示 八进制 字符 
\xhh hh 表示 十 六 进 制 字 符 





当 需 要 输入 一 个 很 长 的 字符 串 时 ， 可 以 分 成 多 行 ， 用 反 斜 杠 来 连接 。 例 如 : 








>>> strl="hello "\ 
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“orla"N 
mpi" 
如 果 需 要 输入 一 个 非常 长 的 字符 串 ， 可 以 使 用 连续 的 三 个 双 引 号 ， 例 如 : 


>>> str2=""" 
There is a way to remove an item from a list given its index 


instead of its Value: the del statement 


mm 


字符 串 类 型 和 元 组 一 样 是 常量 类 型 ， 支 持 下 标 访问 、 切 片 、 比 较 运 算 、 加 乘法 等 运算 。 
字符 串 类 型 的 公用 算法 比 元 组 多 ， 主 要 分 为 以 下 几 类 。 【使 用 help(str) 可 以 查看 字符 串 类 型 
所 支持 的 公用 算法 。) 

1. 大 小 写 转 换 

大 小 写 转 换 主要 包括 首 字符 大 写 〈capitalize) 、 全 部 转换 小 写 (lower) 、 全 部 转换 大 写 


(upper) 、 大 小 写 互 换 (swapcase) 、 单 词 首 字 母 大 写 其 他 小 写 (title) 等 方法 。 下 面 是 应 用 
的 简单 例子 : 


>>> "this Is test".capitalize() 
rh 9 Eost, 











>>> "this is test" .lower() 
Ehis Ls test 

>>> "this is test".upper() 
"THIS IS TEST'" 

>>> "This is Test".swapcase () 
"tHIS 工 S tEST!" 

>>>" hls Ls test title 
"This Ts Test,” 


2. 字符 串 的 搜索 


字符 串 搜 索 包括 的 方法 有 find、index、rfind、rindex、count、replace 等 函数 。find 是 从 
左 向 右 查找 ， 并 返回 找到 第 一 个 字母 的 下 标 。rfind 是 从 右 向 左 查找 。index 和 find 用 法 类 
似 ， 不 同 之 处 在 于 ，find0 方 法 找 不 到 时 返回 -1，index 则 抛 出 一 个 异常 。 例 如 : 


>>> str2="ni ok hello ok why" 


























>>> str2.find("ok") 


>>> Str2e rEindt"okR") 


>> Str2° find("ok2") 


>> Str20 indexr(t"ok2") 


Traceback (most recent call last): 
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串 ， 
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File "<stdio>", line 1, in ? 


ValueError: substring not found 


3. 字符 串 的 替换 


字符 串 蔡 换 包括 的 方法 有 replace (替换 ) 、strip 〈 去 掉头 尾 指定 的 字符 ) 、rstrip( 从 右 
边 开始 ) 、lstrip (左边 ) 、expandtabs (用 空格 取代 tab 键 ) 。 例 如 : 

















>>> a="as1234567" 
>2> .Strip("as™y 
"1234567. 

>>> a.lstrip("as") 
V234567” 

>>> a.rstrip("as") 
'as1234567"' 

>>> a.replace ("as","dd") 
'dd1234567"' 

>>> b="ni bb ss" 
>>> b.expandtabs (1) 


“ne bbissn 


4. 字符 的 分 隔 


split0 方 法 可 以 根据 指定 的 字符 ， 把 一 个 字符 串 截 断 成 列表 。splitlines0 可 以 将 一 


根据 换行 符 截 断 列 表 ， 例 如 : 
>>> a="1,2,3,4" 

>>> 510) 

[WU Ve 
>>> b="123\n456\n789" 
>>> b.splitlines() 
| 


5. 字符 判断 功能 
字符 判断 功能 主要 是 以 下 几 种 : 


字 
@ startwith (prefix，start[,end] ) ， 判 断 一 个 字符 串 是 否 以 prefix 开头 。 
@@ endwith ( suffix[.start[.end]] ) ， 判 断 一 个 字符 串 是 否 以 suffix 结尾 。 
@ isalnum0O， 判 断 是 否 由 字母 和 数字 组 成 ， 至 少 有 一 个 字母 。 

@ isdightO0， 判 断 是 否 全 是 数字 。 

® isalpha()， 为 | 断 是 否 全 是 字母 。 

@ isspace0， 判 断 是 否 由 空格 字符 组 成 。 

@ islowerO0， 判 断 字 符 串 中 的 字母 是 否 全 是 小 写 。 

@ isupper0， 判 断 字 符 串 中 的 字母 是 否 全 是 大 写 。 


个 字符 


@ istitle0， 判 断 字符 串 是 否 为 首 字母 大 写 。 





字典 类 型 


字典 是 Python 中 关联 型 的 容器 类 型 ， 字 典 的 创建 使 用 大 括号 身 的 形式 ， 字 典 中 的 每 一 个 
元 素 都 是 一 对 ， 每 对 包括 key 和 value 两 部 分 ， 中 间 以 冒号 隔 开 。 对 于 key， 需 要 注意 以 下 两 

















(1) key 的 类 型 只 能 是 常量 类 型 。 

key 必须 为 常量 类 型 数值， 不 含有 可 变 类 型 元 素 的 元 组 、 字 符 串 等 ) ， 不 能 用 可 变 类 
型 做 key 值 ， 例 如 列表 作为 字典 的 key， 因 为 key 必须 保持 不 变 ，key 的 用 途 是 作为 字典 的 索 
引 值 ，Python 根据 该 值 去 存放 数据 。 


(2) key 的 值 不 能 重复 。 

key 的 数值 在 一 个 字典 中 是 唯一 的 ， 不 存在 重复 的 key 值 。 

可 以 通过 自省 功能 来 获得 有 关 字典 的 帮助 信息 ， 通 过 help(dict) 就 可 以 获得 字典 的 详细 信 
息 。 根 据 字典 的 自省 信息 ， 可 以 看 到 字典 的 使 用 细节 ， 包 括 字典 的 创建 方法 、 字 典 所 支持 的 
操作 运算 、 字 典 所 支持 的 公用 操作 方法 等 。 

















3.9.1 字典 的 创建 
创建 字典 的 语法 为 {key:value,keyl:valuel .……… }， 例 如 : 
>>> fruit={1:'apple',2:'orange',3:'banana', 4:'tomato'} 
从 dict 的 帮助 信息 上 可 以 发 现 ，dict 还 支持 以 下 创建 方法 。 
(1) dict0 创 建 一 个 空 字典 ， 例 如 : 


>>> fruit=dict() 
>>> print (fruit) 
{} 


(2) 通过 一 个 映射 类 型 的 组 对 生成 dict: 


>>> a={l1l:'one',2:'two',3:'three’'} 
>>> b=dict (a) 
>>> print (b) 


i one 2 two, 3 "three.y 
(3) 通过 序列 容器 生成 队列 (序列 容器 的 元 素 必须 为 两 个 元 素 的 列表 或 者 元 组 〉: 
>>> Miot (tl One A on (3 tren dl) 


{Ls oneh 2 wo 3 VER 
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(4) 通过 输入 方法 参数 〈 参 数 格式 为 name-value) 创建 字典 : 


>>> dict (one=1, two=2,three=4, four=4) 


TEour vd "EhEee.s dr EWOS 270 One Ls 1 


3.9.2 字典 的 操作 


在 dict 的 帮助 信息 中 ， 可 以 查看 dict 所 支持 的 操作 方法 和 运算 ， 主 要 有 以 下 几 类 。 
(1) 通过 key 值 作为 下 标 来 访问 value 值 。 


>>> a={1"oner 2 two 3 "three'} 
>>> a[2] 


'two' 
(2) 各 种 比较 运算 (一 、!=) 。 在 Python 3 中 dict 不 支持 大 小 比较 : 


>>> a={1:'one',2:'two',3:'three'} 
>>> b={1:'one',2:'two',3:'tiree'} 
>>> a== 

False 

>>> al=b 


True 
(3) 清空 字典 (clear0 方 法 ) : 


>>> a.clear() 
>>> a 


人 
(4) 删除 字典 某 一 项 (pop0、popitem0 方 法 ) : 
>>> BAdict={1: "a 2 D3 cy 


>>> bdict.pop (1) 


>>> bdict.popitem() 
(2, 'b') 
>> 


(5) 序列 访问 方法 : 提供 序列 访问 字典 的 方法 。items0 方 法 返回 一 个 列表 ， 列 表 中 是 











(key，value) 的 元 组 ，iteritems、iterkeys、itervalues 返回 迭代 器 对 象 ，keys0 方 法 返回 一 个 以 
key 为 元 素 的 列表 。 例 如 : 
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SE 

>>> bdict.items() 

dict items([ (1 "ar (2 "br (3 "cr (4r 'd')s (5S: "ec")]) 
>>>. for a in bdict.itema(): 


print (a) 


1 | 


(2, 'b') 
(3 Cy 
bar 
Cor oe 


>>> For a in bdlict .Kevs(th: 


print (a) 


>>> for a in bdict.values() : 


print(a) 


+ 


>>> bdict.keys() 
dict keve(l1ir 2 3 A SI 


集合 类 型 


集合 类 型 是 在 Python 2.3 版 本 以 后 才 新 增加 的 ， 有 可 变 的 集合 和 不 可 变 的 集合 两 种 类 








型 。 集 合 类 型 的 作用 可 以 用 一 句 话 来 概括 : 无 序 并 











唯一 地 存放 容器 元 素 的 类 型 。 集 合 类 型 里 


面 可 以 存放 各 种 类 型 的 对 象 〈 特 点 是 无 序 存放 并 且 不 能 重复 存放 ) 。 


3.10.1 集合 的 创建 


>>> a=set ([1,2,3]) 

>>> b=frozenset ([1,2,3]) 

>>> a,b 

({1; 2, 3}, frozenset({1, 2, 3})) 


set() 方 法 用 来 创建 可 变 集合 。frozenset 用 来 创 于 








不 可 变 集合 。 
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3.10.2 ”集合 的 方法 和 运算 

集合 方法 的 运算 主要 是 并 、 交 、 差 、 补 、 判 断 子 集 。 

(1) 并 是 将 两 个 集合 的 元 素 合 并 在 一 起 ， 可 以 用 union0 方 法 或 者 | 运算 。 

(2) 交 是 求 两 个 集合 都 公有 的 元 素 ， 可 以 用 intersection0 方 法 或 者 & 运 算 。 

(3) 差 是 求 一 个 集合 比 另 一 个 集合 多 或 者 少 的 元 素 ， 可 以 用 difference0 方 法 或 者 减法 运算 。 

(4) 补 是 求 两 个 集合 中 不 为 交集 的 元 素 ， 可 以 用 symmetric_difference() 方 法 或 者 运用 ^ 
运算 来 判断 。 

(5) 判断 子 集 就 是 判断 一 个 集合 是 否 是 另 一 个 集合 的 子 集 。 可 以 用 issubset() 方 法 或 者 
<= 运 算 来 判断 。 


集合 类 型 的 操作 演示 如 例子 3.13 所 示 。 
例子 3.13 ”集合 类 型 的 操作 


>>> a=set ([1,2,3,4]) 
>>> b=set ([2,3,5,6]) 
>>> a.difference(b) 
1, 4} 

>>> a=b 

1, 4} 

>>> alb 

Ti 2 3 A S57 GF 
>>> agb 






































开始 编程 : 文本 统计 和 比较 


本 节 将 使 用 前 面 所 介绍 的 各 种 内 建 类 型 实现 一 个 完整 的 例子 : 对 两 个 英文 文档 进行 统 
计 ， 得 到 两 个 英文 文档 使 用 了 多 少 单词 、 每 个 单词 的 使 用 频率 ， 并 且 对 两 个 文档 进行 比较 ， 
返回 有 差异 的 行 号 和 内 容 。 

【本 节 代 码 参 考 : C03\PyMerge.py】 




















Ee 
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3.11.1 需求 说 明 

在 日 常 工 作 中 ， 经 常 需要 对 文本 进行 统计 和 比较 ， 特 别 是 在 多 人 协作 编写 文档 和 代码 的 
时 候 ， 要 经 常 性 地 进行 文本 统计 和 比较 ， 这 样 才能 保证 不 会 错误 地 覆盖 文档 和 代码 ， 通 常会 
使 用 Araxis Merge 软件 来 进行 文本 比较 ， 本 节 将 使 用 Python 实现 一 个 简单 的 Merge 程序 。 


3.11.2 需求 分 析 
本 节 要 实现 的 程序 取 名 为 PyMerge。 它 需要 实现 两 个 功能 模块 :统计 和 比较 。 
@ ”统计 功能 : 主要 是 统计 总 词汇 数 和 每 个 词汇 的 数目 。 
@ ”比较 功能 : 主要 是 比较 两 个 文本 的 差异 ， 需 要 忽略 空 行 和 空格 的 影响 ， 也 就 是 因为 
多 个 空 行 或 者 空格 产生 的 文本 差异 不 应 该 列 为 文本 差异 。 


3.11.3 ”整体 思 

PyMerge 程序 主要 有 两 大 功能 : 统计 和 比较 。 可 以 分 开 分 析 这 两 个 功能 的 思路 ， 统 计 功 
能 的 关键 是 如 何 存 放 词 汇 和 词汇 数 ， 比 较 功 能 的 关键 是 如 何 剔 除 空 行 和 空格 的 影响 。 

@ 统计 功能 的 思路 。 

统计 功能 ， 包 括 两 个 功能 : 总 词汇 数 统计 和 每 个 词汇 的 使 用 次 数 统计 。 可 以 将 每 个 词汇 
作为 key 保存 到 字典 中 ， 对 文本 从 开始 到 结束 ， 循 环 处 理 每 个 词汇 ， 并 将 词汇 设置 为 一 个 字 
典 的 key， 并 将 其 value 设置 为 1， 如 果 已 经 存在 该 词汇 的 key， 说 明 该 词汇 已 经 使 用 过 ， 就 
将 value 累加 1。 

@ 比较 功能 的 思路 。 

比较 功能 是 对 两 个 文本 逐 行进 行 比 较 ， 在 比较 一 行 时 忽略 空格 的 影响 。 在 实现 这 个 功能 
的 时 候 ， 首 先 要 将 文本 分 成 一 行 一 行 的 ， 对 每 一 行进 行 处 理 ， 忽 略 空格 的 个 数 ， 将 字符 串 里 
有 效 字符 转换 成 列表 ， 然 后 进行 比较 。 





3.11.4 具体 实现 
3.11.3 节 分 析 了 功能 实现 的 思路 ， 统 计 功 能 是 将 词汇 放 到 字典 类 型 中 ， 用 字典 的 key 来 
存放 单词 ， 用 value 来 存放 个 数 ， 而 比较 功能 则 是 使 用 字符 串 分 隔 成 列表 的 公用 方法 。 


1. 统计 功能 的 具体 实现 


统计 功能 就 是 将 一 个 文本 的 每 个 字符 作为 key 值 ， 放 入 字典 中 。 以 下 代码 将 实现 文本 词 
汇 数 的 统计 。 


OF >>> Feadtxt="” 

















02 :=. 竺 及 9 有 有 SS 起 交 EY 


WE can you see this ? 
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[1 7 ody 

05 >>> 

06 >>> readlist=readtxt.split() 
07 >>> dict={} 


08 >>> for every word in readlist: 


+ if every word in dict: 
nl dict[levery word]+=1 
LI eva else: 

Hl dict[levery word]=1 
13 


14 >>> print(dict) 
有 
EVEN 
第 6 行 代码 ， 对 文本 字符 串 readtxt 做 split 操作 ， 就 可 以 获得 该 文本 字符 串 的 所 有 词汇 ， 
每 个 词汇 都 作为 列表 的 元 素 返回 。 第 8~12 行 代 码 ， 循 环 处 理 词汇 列表 ， 将 词汇 作为 dict 的 
key， 如 果 key 已 经 存在 ， 就 将 value 值 累加 1， 和 否则 将 value 设置 为 1。 
上 面 实现 的 文本 统计 的 代码 需要 封装 起 来 给 整个 程序 使 用 ， 可 以 使 用 函数 封装 〈 使 用 语 
法 定义 def functionname(): 函数 就 可 以 了 ) 。 以 下 代码 对 上 述 代码 进行 函数 封装 。 
def wordcount (readtxt): 
dict={} 
readlist=readtxt .split() 
for every word in readlist: 
if every word in dict: 
dict [everYy_word] +=1 
else: 
dict [everYy_word]=1 


return dict 


2. 文 本 比较 功能 

文本 比较 首先 需要 将 文本 字符 串 分 成 一 行 一 行 的， 使 用 字符 串 splitlines0 方 法 ， 可 以 将 
一 个 字符 串 按 行 分 成 一 个 列表 ， 删 除 列表 中 的 空 元 素 和 空白 字符 元 素 ， 再 将 两 个 文本 进行 循 
环比 较 。 以 下 代码 将 实现 文本 比较 功能 。 

01 #!/usr/bin/env python3 

02 def testcmp (sText, dText): 


03 cmpList = [] 

04 sLineList = [] 

05 for line in sText.splitlines(): 

06 if not line.isspace() and 1ine!=””: 
07 sLineList.append (line) 

08 dLineList = [] 


09 for line in dText.splitlines(): 


10 if not line.isspace() and line!=””: 

二 而 dLineList.append (line) 

12 sLen = len(sLineList) 

3 dLen = len(dLineList) 

14 for step in range(max(sLen, dLen)): 

Ll Ces 

16 sWordList = sLineList[step] .split() 
i except IndexError as e: 

18 print ("sfile is end") 

L9 sLineList.append("") 

20 bh 

之 下 dWordList = qdLineList[step].split() 
pe except IndexError as e: 

23 print ("dFile is end") 

24 dLineList.append("") 

25 if sWordList != dWordList: 

26 cmpList.append((step, sLineList[step], dLineList[step])) 


上 述 代码 的 实现 逻辑 主要 包括 : 

@ 第 4~11 行 代码 ， 对 两 个 文本 按 行 划分 。 

@ 第 16~21 行 代码 ， 将 文本 每 一 行 转换 成 列表 ， 转 换 过程 中 忽略 空白 字符 。 

@ 第 25~26 行 代码 ， 比 较 结果 ， 如 果 不 相等 ， 就 写 信息 到 列表 cmpList 中 ， 以 供 函 数 
返回 信息 。 


3.11.5 文本 读 写 

前 面 实现 的 两 个 函数 分 别 用 来 进行 文本 统计 和 文本 比较 ， 但 是 还 需要 实现 从 文本 文件 中 
读 取 字符 串 的 功能 、 读 文件 功能 。Python 内 置 了 file 类 型 来 实现 读 文 件 功能 。 读 者 可 以 先 使 
日 help(file) 来 查看 file 类 型 的 详细 信息 ， 里 面 说 明了 file 类 型 的 几 个 主要 操作 方法 。 


(1) file 类 型 的 创建 

file 类 型 使 用 file0 方 法 创建 ， 包 括 3 个 参数 : name、mode、buffering。name 是 指 文件 
名 。mode 是 读 写 模式 一 一 r 模式 是 只 读 ，w 是 可 写 ，a 模式 是 接 在 文件 的 末尾 写 ，b 是 写 二 进 
制 文 件 ，+ 则 表示 可 读 也 可 写 。buffering 设置 文件 读 写 缓存 ，0 表示 不 设置 ，1 表示 设置 ， 也 
可 以 自行 指定 缓存 大 小 。 


(2) 文件 读 写 

file 类 型 提供 了 read0 和 write0 来 读 写 文件 。read0 可 以 读 取 文 本 文件 到 字符 串 ，writeO0) 则 
将 字符 串 写 到 文件 中 。 

在 这 个 应 用 案例 中 ， 我 们 只 需要 读 文件 到 字符 串 中 ， 使 用 下 面 的 代码 就 可 以 : 





























wi 
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>>> open file=open (filename) 


>>> file txt=open file-read() 


3.11.6 命令 行 参数 

比较 两 个 文本 ， 需 要 将 两 个 文本 的 名 字 传 给 程序 。 本 程序 是 命令 行程 序 ， 可 以 通过 命令 
行 参数 传送 文本 名 称 。 所 谓 命 令 行 参数 ， 就 是 运行 命令 后 所 带 的 参数 。 在 UNIX 系统 中 ， 程 
序 大 多 带 有 命令 行 参数 。 在 Window 系统 下 ，cmd 窗口 中 也 可 带 命 令 行 参数 。 这 里 演示 一 个 
在 UNIX/Linux 的 shell 下 运行 的 命令 : 

1s =~a /dev 


上 面 的 ls 命令 类 似 于 Window 下 的 dir 命令 ， 用 来 参看 某 个 目录 或 者 文件 的 信息 。 在 ls- 
a/dev 中 ，ls 为 程序 名 字 ，-a /dev 是 命令 行 参数 。 
命令 行 参数 包括 以 下 两 部 分 : 


(1) 命令 行 选项 Coption) 
在 ls-a/dev 命令 中 ，-a /dev 为 命令 行 参 数 ，-a 为 命令 行 选项 ， 一 般 程序 用 来 标志 出 参数 
的 作用 。 命 令 行 选 项 一 般 习 惯 有 两 种 : 短 选 项 和 长 选项 。-a 是 短 选 项 ， 由 一 个 减 号 和 一 个 字 
母 组 成 ， 等 价 于 --all 长 选项 。 长 选项 由 两 个 减 号 和 若干 个 字母 组 成 。 下 面 的 两 个 命令 行 参数 
是 等 价 的 。 

ls -all /dev 


ls -a /dev 














(2) 选项 参数 (option augument) 

命令 行 选项 后 面 跟 的 是 具体 的 参数 。 命 令 行 选项 用 来 说 明 是 什么 参数 ， 选 项 参数 说 明 参 
数 的 具体 值 。 例 如 : 

ls -a /dev 

-a 是 命令 行 选项 ，/dev 是 选项 参数 ， 用 来 说 明 命令 行 选项 的 具体 参数 值 。 

在 Python 中 ， 读 取 命 令 行 参数 很 方便 。Python 标准 库 optparse 模块 来 读 取 命令 行 参数 。 
该 模块 是 一 个 强大 、 灵 活 、 易 用 、 易 扩展 的 命令 行 解 释 器 。 使 用 optparse 模块 ， 只 需要 很 好 
的 代码 ， 就 可 以 给 程序 添加 专业 的 命令 行 接口 。 

optparse 是 Python 标准 库 模块 ， 而 不 是 内 置 模块 ， 使 用 前 需要 使 用 import 导入 该 模块 。 
例如 : 

>>> import optparse 


optparse 用 法 分 成 三 步 : 
(1) 创建 OptionParser 对 象 。 





parser = optparse.OptionpParser() 
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(2) 添加 参数 选项 。 


parser.add option("-f", "--file",action="store", type="string", 


dest="filename",default=" ./’') 


为 optparse 模块 添加 参数 选项 ， 使 用 add_option0 方 法 ， 包 括 6 个 参数 值 ， 下 面 介绍 其 中 
的 5 个 主要 参数 : 

@ 第 一 个 是 短 选项 ， 通 常 是 一 个 减 号 加 一 个 字母 。 

@ 第 二 个 是 长 选项 ， 通 常 是 两 个 减 号 加 一 个 说 明 参 数 作 用 的 代词 。 

@ action 表示 对 命令 行 选项 后 的 参数 做 的 操作 。action 的 参数 有 三 种 : store、 
store_true、store_false。store 表示 会 将 参数 值 保存 到 dest 所 指定 的 变量 中 。 对 于 不 
需要 参数 的 选项 ， 可 以 将 store 改 为 store_ture 或 者 store false。 设 置 为 store_ture， 
命令 行 参数 出 现 该 命令 选项 时 ，dest 所 指定 的 变量 会 被 设置 为 ture， 否 则 为 false; 
设置 为 store_false 时 ， 当 命令 行 参 数 中 出 现 该 命令 选项 时 ，dest 所 指定 的 变量 会 被 
设置 为 false， 否 则 为 true。 

@ type 表示 参数 类 型 。 

@ default 设置 参数 默认 值 。 如 果 没 在 add_option 中 设置 default 这 一 项 ， 并 且 命 令 行 参 
数 中 也 没有 发 现 该 选项 ， 那 么 对 应 的 变量 值 就 是 None， 也 可 以 在 default 中 设置 默 
认 值 。 


(3) 解释 命令 行 。 
(options, args) = parser.parse args() 


parse_args 方法 会 将 命令 行 参 数 解析 以 后 放 到 options 中 ， 就 有 了 命名 为 add-option() 方 法 
中 所 指定 的 dest 的 值 属性 名 。 可 以 直接 访问 options 来 得 到 命令 行 参 数 的 值 。 例 如 : 














>>> print (options.filename) 


在 本 案例 中 ， 有 两 个 参数 ， 分 别 是 两 个 需要 互相 比较 的 文件 的 目录 和 名 字 ， 我 们 可 以 使 
下 面 的 代码 来 实现 命令 行 参数 的 解析 : 


>>>parser.add option("-f","--filel",action="store",type="string",dest="filenamel") 

















>>>parser.add option("-d","—file2",action="store",type="string",dest="filename2") 


3.11.7 程序 入 口 
在 其 他 计算 机 语言 中 ， 一 般 都 存在 一 个 main() 方 法 ， 作 为 程序 的 入 口 。 在 Python 中 ， 不 
存在 这 样 的 main， 当 运行 一 个 Python 文件 的 时 候 ，Python 解析 器 会 从 文件 开头 一 步 一 步 执 
行 代码 ， 直 到 文件 结束 。 
为 了 代码 风格 规范 一 致 ，Python 也 有 和 main0 方 法 类 似 的 东西 ， 例 如 : 


站 大 name ==" main : 














print ("ok") 
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在 编写 Python 程序 的 时 候 ， 一 般 都 把 程序 的 入 口 放 在 _name_ 一"_ main "代码 之 后 。 
在 前 面 小 节 ， 已 经 完成 文本 读 写 、 命 令 行 参 数 分 析 、 文 本 统计 和 比较 部 分 的 功能 ， 本 节 将 把 
这 些 功 能 模块 组 合 在 一 起 ， 完 成 一 个 完整 的 程序 。 

整个 程序 流程 是 ， 首 先 解析 命令 行 参 数 ， 然 后 读 取 文 本 ， 最 后 对 文本 做 比较 。 下 面 是 
PyMerge 主 逻 辑 的 功能 实现 : 


01 import optparse 














02 import sys 


03 

04 def wordcount (readtxt): 

05 dict = {} 

06 readlist = readtxt.split() 

07 for every word in readlist: 

08 if every word in dict: 

09 dictl[levery word] += 1 

10 else: 

下 于 dict[levery word] = 1 

12 return dict 

13 

14 def testcmp (sText, dText): 

LS: cmpList = [] 

16 sLineList = [] 

17 for line in sText.splitlines(): 

18 if not line.isspace() and line != "": 
19 sLineList.append (line) 

20 dLineList = [] 

2 for line in dText.splitlines(): 

区 if not line.isspace() and line != "": 
| dLineList.append (line) 

24 sLen = len(sLineList) 

2 dLen = len(dLineList) 

26 for step in range(max(sLen, dLen)): 

2 中 

28 sWordList = sLineList[step] -split() 
2 except IndexError as e: 

30 print ("sfile is end") 

Sh sLineList.append ("XXx") 

32 # sWordList = sLineList[step] 

EE; EP 

34 dWordList = dLineList[step] .split() 
S35 except IndexError as e: 


58 


36 


Print("dqFile is end") 





3 dLineList.append ("YYY") 
38 # dwordList = dLineList[step] 
EE if sWordList != dWordList: 
40 cmpList.append((step, sLineList[step], 
41 
42 return cmpList 
43 
44 if name == "main ": 
45 parser = optparse.OptionParser () 
46 parser.add option("-s", 
dest="sFileName") 
47 parser.add option("-d", 
dest="dFileName") 
48 (options, args) = parser.parse args() 
49 with open(options.sFileName, 
'r') as dFile: 
50 # 开 始 统计 文件 
51 sText = SFile.read() 
52 dText = dFile.read() 
53 print ("文件 %s" %options.sFileName) 
54 print ("词汇 总 数 : %d" Slen(wordcount (sText))) 
5 print ("各 词汇 统计 : %s" Swordcount (sText)) 
56 
57 print ("文件 %s" Soptions.dFileName) 
58 Print ("词汇 总 数 : %d" %len (wordcount (dText))) 
59 print ("各 词汇 统计 : %s" Swordcount (dText)) 
60 
61 # 文 本 比较 
62 cmpList = testcmp(sText, dText) 
63 for diff in cmpList: 
64 print("%s %s: %s" %(options.sFileName, 
65 print("%s %s: %s" %(options.dFileName, 


第 45~48 行 的 功能 是 负责 解析 命令 行 参数 。 


第 49~52 行 负责 将 文本 读 到 字符 串 中 ， 使 用 





dLineList[step])) 


"——sFile", action="store", type="string", 


"—--dFile", action="store", type="string", 


'r') as sFile, open(options.dFileName, 


dLEELOl ALEEDENY, 
dTEELOl LEE D2 


with...as.…. 的 方式 打开 文件 ， 避 免 了 文件 名 


不 存在 、 文 件 无 法 打开 等 问题 。 如 果 文 件 无 法 正常 打开 读 取 ， 程 序 直接 退出 并 显示 错误 。 
第 53~59 行 完 成 对 两 个 文本 的 词汇 总 数 和 各 词汇 数 的 统计 ， 使 用 上 面 的 wordcount 来 完 
成 词汇 统计 ， 打 印 词汇 统计 信息 。 


第 62~65 行 完 成 两 个 文本 的 比较 ， 使 月 











息 以 后 ， 将 比较 的 信息 打印 出 来 。 














日 testcmpO 函 数 来 进行 文本 比较 ， 获 得 比较 结果 信 
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3.11.8 ”运行 效果 


将 testcmp、wordcount 和 程序 入 口 的 代码 合并 到 一 起 以 后 ， 保 存 文 件 名 到 PyMerge.py， 
完成 该 程序 的 开发 。 可 以 在 Window 的 cmd 窗口 或 者 UNIX/Linux 的 shell 下 运行 如 下 命令 : 


python PyMerge.py -5 a.tzxt -d b.txt 
运行 效果 如 图 3.1 所 示 。 


python PyMerge.py -s a.txt -d b.txt 
atxt 


有 


> et 





了 .1〗2 本 章 小 结 


本 章 主要 学 习 了 Python 的 简单 类 型 和 容器 类 型 。 读 者 通过 本 章 的 学 习 ， 应 该 熟练 地 掌握 
Python 的 简单 类 型 和 容器 类 型 用 法 。 在 学 习 本 章 的 过 程 中 ， 需 要 注意 以 下 几 点 : 
@@ ”Python 的 缩 进 要 使 用 4 个 空格 ， 不 可 用 Tab 和 空格 混用 。 
@ 要 多 使 用 help 和 id 这 样 的 自省 功能 ，Python 的 内 置 模块 和 标准 库 都 提供 了 详细 的 
自省 信息 。 查 看 这 些 自省 功能 ， 就 可 以 了 解 各 内 置 模块 和 标准 库 的 详细 用 法 。 
@ 字符 串 、 列 表 、 元 组 、 字 典 是 Python 编程 中 很 重要 的 4 种 数据 类 型 ， 要 熟练 掌握 它 


们 的 使 用 方法 。 


@ 可 变 类 型 和 常量 类 型 的 区 别 。 
学 习 完 本 章 以 后 ， 读 者 需要 回答 下 列 问题 : 


(1) 元 组 和 列表 的 区 别 是 什么 ， 何 种 情况 下 使 用 元 组 ， 何 种 情况 下 使 用 列表 ? 
(2) 字典 的 key 可 以 是 哪些 类 型 ， 不 可 以 为 哪些 类 型 ? 
(3) 假设 存在 一 个 几 百 年 的 家 族 ， 族 长 需要 用 一 个 程序 把 几 百 年 来 的 族谱 都 录入 到 计算 


机 中 ， 而 计算 机 需要 能 够 提供 查询 : 查询 家 族 某 代 某 个 人 的 个 人 情况 和 亲属 血缘 情况 。 使 用 






































Python 来 编写 这 样 的 程序 时 ， 使 用 何 种 类 型 来 存储 族谱 信息 ， 如 何 存储 ? 











(4) 3.11 节 的 应 上 
如 何 处 理 ? 
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案例 是 用 


来 对 英文 文档 进行 比较 的 ， 如 果 要 对 中 文 文档 进行 比较 ， 该 


第 4 音 


第 4 章 
< 和 流程 控制 和 画 数 > 


- 章 介 绍 了 Python 常用 的 内 置 类 型 ， 本 章 将 会 深入 讨论 Python 的 流程 结构 和 函数 。 


上 一 章 在 讨论 内 置 类 型 的 过 程 中 ， 简 单 介绍 了 使 用 for 循环 控制 结构 和 简单 的 函数 封装 功能 
模块 ， 本 章 将 讨论 更 多 控制 结构 和 更 多 的 函数 用 法 。 


本 














的 主要 内 容 是 : 
控制 代码 的 执行 顺序 。 
循环 代码 。 
函数 的 使 用 。 

谱 套 函 数 。 

入 皇后 算法 。 


流程 控制 


- 代 大 师 Dijkstra《〈 第 七 届 图 灵 奖 得 主 ) 于 1968 年 发 表 的 著名 文章 《Go To Statement 


Considered Harmful》 和 否定 了 goto 的 用 法 ， 使 用 条 件 选择 结构 和 循环 结构 来 控制 程序 的 流程 已 
经 成 为 各 种 现代 计算 机 语言 的 基础 。Python 语言 也 不 例外 ， 不 过 Python 的 条 件 和 循环 结构 又 
和 其 他 语言 略 有 不 同 。 


4.1.1 


选择 结构 


在 程序 执行 的 过 程 中 ， 时 常 依据 一 些 条 件 的 变化 改变 程序 的 执行 流程 。 改 变 程序 流程 的 


功能 ， 了 











要 由 条 件 语句 配合 布尔 表达 式 来 完成 。 在 Python 中 ， 使 用 站 语句 来 实现 这 种 流程 选 








择 的 控制 。 例 如 : 


>>>if x==0: 


>>> Breant (or 


如 果 x 等 于 0 就 会 打印 ok， 如 果 x 不 等 于 0 就 不 会 打印 ok。 对 于 需要 分 别 对 应 于 满足 和 
不 满足 条 件 来 执行 不 同 的 流程 程序 ， 可 以 使 用 关键 字 else 引出 另 一 个 程序 流程 。 例 如 : 


























>>> if x==0: 
print ("x 等 于 0") 
-SLS 


print ("x 不 等 于 0") 


有 时 候 ， 程 序 的 分 支 可 能 是 三 个 或 更 多 。 此 时 ， 就 需要 用 elif 语句 引出 更 多 的 分 支 。elif 
语句 是 “else 这 ”的 缩写 ， 每 一 个 elif 语句 均 为 程序 引出 一 个 分 支 。elif 语句 的 数量 没有 限 
制 ， 例 如 : 


>>> if x==1: 
print ("not 1") 
。 elif x==2: 
print (not 2") 
。 elif X==3: 
print( "not 3 
。 elif x==4: 


print ("not 4") 


Python 会 依次 执行 计 语 名 下 的 程序 按 顺序 检查 条 件 表达 式 ， 当 找到 第 一 个 满足 要 求 的 表 
达 式 后 ， 执 行 此 分 支 内 的 语句 。 剩 下 的 条 件 ， 即 使 有 满足 要 求 的 ， 也 不 做 检查 。 需 要 注意 的 
是 ， 上 面 语 句 中 的 最 后 一 个 分 支 是 elif x==4， 这 样 语法 上 虽然 没有 错误 ， 但 是 为 了 代码 更 规 
范 严谨 ， 一 般 在 编写 这 样 的 分 支 代码 时 ， 最 后 一 个 分 支 应 该 是 else， 例 如 : 


>>> if x==1: 
Berlintt"not "yy 
。 elif x==2: 
Print(t"not 2") 
。 elif x==3: 
Erint("not 3") 
。 elif x==4: 
print ("not 4") 
. else: 


print("not all") 
最 后 else 分 支 用 于 对 于 不 满足 上 面 所 有 其 他 分 支 的 处 理 ， 这 样 不 会 漏 过 没有 处 理 的 选择 
情况 ， 如 果 对 于 不 满足 上 面 所 有 其 他 分 支 的 情况 不 做 任何 处 理 ， 可 以 使 用 pass 语句 来 说 明 不 
需要 做 特定 处 理 。 例 如 : 


>>> if x==1: 








Printt not Ly 
。 elif x==2: 

Brint(t"noc 2 
. elif x==3: 


ment no 3 
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=。 ©lif X==4: 
print("not 4") 
= C13 


pass 


4.1.2 for 循环 结构 
在 上 一 章 ， 我 们 大 量 使 用 for...in 来 访问 序列 类 型 和 字典 类 型 。Python 的 for 语句 依据 任 
意 序列 或 者 字典 中 的 子 项 ， 按 照 它 们 在 序列 中 的 顺序 来 进行 欠 代 。 例 如 ， 


>>> ab=["'a',1,3,4] 


>>> for x in ab: 























print (x) 


必 mw PPnm， 


需要 注意 的 是 ， 在 循环 过 程 中 ， 修 改 循环 的 序列 〈 当 是 可 变 序 列 类 型 时 ) 是 很 不 安全 
的 ， 例 如 : 
>> a el 
OT 
if x=="'C"': 
bb=a .pop (0) 
print (x) 


对 于 这 种 情况 ， 可 以 使 用 [:] 对 列表 进行 复制 。 当 b 是 一 个 列表 的 时 候 ，a=b[:]， 就 可 以 复 
制 b 的 列表 到 a。 需 要 特别 注意 的 是 ，a=b， 并 不 是 将 b 的 列表 复制 到 a， 只 是 让 a 和 指向 
同一 个 列表 对 象 ， 只 有 使 用 a=b[:] 语 句 才 是 创建 一 个 新 列表 对 象 复 本 ， 让 b 指向 它 。 例 子 4.1 
说 明 两 者 之 间 的 区 别 。 
例子 4.1 列表 的 复制 








01 >>> a=[1,2,3,4] 
02 >>> b=a 

03 >>> id(a) 

04 31427880 

05 >>> id(b} 

06 31427880 

07 >>> a.pop() 

08 4 
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09 >>> print (a) 


10 | 让 | 
于 >>> print'(b} 
a 页 大 FE 

Le >>> a=[1,2,3,4] 
14 >>> b=a[:] 
ul >>> id(a) 
16 31421424 

1 >>> id(b) 

18 31427560 

by >>> a.pop() 
20 4 

a >>> print (a) 
2 之 | 站 | 
23 >>> print (b) 
24 El Zr Br al 


从 上 面 的 代码 可 以 看 出 ， 使 用 b=a 时 ， 实 际 上 变量 a 和 b 所 指向 的 列表 是 同一 个 列表 
(因为 它们 的 对 象 id 是 一 样 的 ) ， 所 以 a 进行 pop 操作 ，b 的 列表 也 一 样 被 ppp 了 ; 使 用 
b=a[:] 时 ，b 的 列表 是 复制 a 的 对 象 〈 可 以 看 到 它们 的 对 象 id 不 一 样 ) ， 对 a 做 pop 操作 ，b 
的 列表 并 没有 变化 。 
对 于 上 面 需 要 在 循环 中 修改 列表 的 情况 ， 可 以 使 用 复制 列表 的 技术 来 避免 修改 列表 带 来 
不 安全 循环 的 情况 ， 例 如 : 
>>> a=['a','b','c','d'] 
> Fo0r XE Ln ole 
if x=="'C": 
bb=a .pop (0) 
print (x) 


4.1.3 ”while 循环 结构 


while 和 for 一 样 ， 也 是 一 种 循环 结构 。 和 for 不 同 的 是 ，while 循环 的 条 件 取决 于 while 
后 面 表达 式 的 布尔 值 ， 例 如 : 
>>> i=0 
>>> While 4<6s: 
i+=1 
print (i) 
当 while 后 面 的 表达 式 为 真 时 ， 执 行 while 语句 下 的 代码 块 ， 否 则 执行 循环 结束 以 后 的 代 
码 。 
在 while 循环 中 ， 需 要 强制 退出 循环 的 时 候 ， 可 以 使 用 break 语句 ， 例 如 : 
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当 使 用 break 语句 时 ， 会 直接 退出 循环 ， 即 不 执行 循环 代码 块 下 面 的 部 分 ， 也 不 继续 执 
行 循环 处 理 ， 而 是 直接 跳 到 循环 结束 后 ， 执 行 循 环 结束 后 的 代码 。 

continue 和 break 语句 的 区 别 是 ，continue 虽然 也 不 执行 循环 代码 下 面 的 部 分 ， 但 是 
continue 会 跳 到 循环 结构 的 循环 开始 部 分 ， 继 续 下 一 次 循环 。 例 子 4.2 列 出 两 个 关键 字 的 区 
别 。 


例子 4.2 break 和 continue 的 区 别 





26 
2 
28 
9 
30 


31 >>> i=0 


WNP oO. 


32 >>> while i<6: 


< print (i) 
区 i+=1 

S52 a if i==4: 
36 eis.s continue 
= 人 

38 0 

3 

40 2 

4 3 

42 4 

43° 5 


从 例子 4.2 的 第 3 行 和 第 12 行 、 第 25 行 和 第 36 行 的 比较 情况 可 以 看 到 ，break 和 
continue 的 区 别 在 于 是 否 继续 执行 循环 。 这 一 点 和 其 他 计算 机 语言 非常 相似 。 
需要 注意 的 是 ，Python 的 循环 也 可 以 带 else 分 支 ， 这 一 语言 特性 是 其 他 语言 所 没有 的 ， 
用 起 来 也 非常 方便 ， 例 如 : 
>>> for i in range (6): 
print (i) 
。 else: 
print ("ok”) 
循环 语句 的 else 分 支 是 可 有 可 无 的 ， 若 有 ， 则 表示 如 果 循 环 语句 是 正常 结束 的 〈 不 是 使 用 
break 强制 结束 的 ) ， 就 执行 else 分 支 里 的 代码 块 。 例 子 4.3 解释 了 循环 语句 中 else 的 作用 
例子 4.3 ”循环 语句 的 else 用 法 








01 >>> for i in range(6) : 
02 本 二 print (i) 

03 se else: 

04 a print(“ok™) 

05 

06 

07 

08 

09 

1 

Eh 


wbhpe' 
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例子 4.3 列 出 了 3 种 情况 : 正常 循环 ， 使 用 continue 的 循环 ， 使 用 了 break 的 循环 。 在 这 








3 种 循环 中 ， 前 两 种 正常 执行 循环 到 结束 ， 所 以 都 执行 了 else 分 支 的 代码 块 ， 而 break 强行 
结束 了 循环 ， 直 接 跳 到 循环 结束 代码 之 后 ， 没 有 执行 else 的 代码 块 。 








对 于 需要 重复 使 用 的 代码 功能 模块 ， 一 般 都 会 将 其 封装 成 函数 ， 以 提高 代码 的 可 读 性 ， 
使 得 程序 结构 整齐 清晰 。 


4.2.1 函数 的 定义 
在 Python 中 ， 定 义 函数 的 语法 形式 如 下 : 
def <function name> ( <parameters list> ): 
<code block> 


其 中 ，def 用 来 声明 开始 定义 一 个 函数 ，function name 是 函数 的 名 字 ，parameters_list 是 
函数 输入 的 参数 ，code block 是 函数 的 功能 模块 代码 。 例 如 ， 当 需要 将 一 个 字符 串 中 的 字符 a 
和 b 蔡 换 成 h 和 i 时 ， 可 以 将 该 功能 封装 成 函数 transchar: 

>>> def transchar (para str): 

if type(para str)==str: 
str l=para str.replace('a', ''h') 
str 2=str 1.replace('b','i'") 
return str 2 

else: 


return false 


>>> transchar ("abdbi") 
全 下 


4.2.2 ”函数 的 参数 

Python 的 函数 参数 使 用 方法 比较 灵活 ， 既 可 以 选择 参数 个 数 ， 也 支持 默认 值 ， 并 且 可 以 
自行 指定 赋值 顺序 。 总 的 来 说 ，Python 函数 的 参数 有 如 下 特点 : 

@ 参数 有 默认 值 ， 填 写 参 数 时 个 数 可 选 。 

@@ ”参数 的 赋值 ， 可 以 按照 参数 的 名 字 来 赋值 ， 赋 值 的 顺序 可 以 改变 。 

@ ”支持 不 定 个 数 参数 ， 可 以 编写 类 似 于 C 中 printf 那样 的 浮 数 。 

例如 ， 需 要 编写 一 个 用 于 计算 长 方 体 体积 的 函数 ， 包 括 3 个 参数 : 长 、 宽 、 高 。 对 于 这 
样 一 个 函数 ， 可 以 定义 如 下 : 
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>>> def getvolume (len,width,height): 
return len*width*height 


也 可 以 设 定 这 3 个 参数 ， 这 样 没有 指定 参数 值 ， 会 使 用 默认 值 进行 调用 ， 例 如 : 


>>> def getvolume (len=0,width=0,height=0): 




















return len*width*height 
>>> getvolume (12,13) 
0 
并 且 参 数 的 赋值 顺序 也 不 一 定 是 固定 的 ， 只 要 指定 名 字 调 用 就 没有 问题 ， 例 如 : 


>>> getvolume (width=12, height=2,1len=3) 
了 二 


如 果 使 用 过 C 语言 的 printt)， 就 会 对 可 变 参数 的 意义 比较 了 解 。printftO 函 数 只 需要 按照 


指定 的 格式 ， 就 可 以 输入 任意 个 数 的 参数 。Python 的 print0 用 法 和 C 语言 的 printfO) 颇 为 相 
似 。 例 子 4.4 是 Python 的 print0 方 法 和 C 语言 的 printtO 函 数 的 比较 。 


例子 4.4 Python 的 print() 方 法 和 C 语言 的 printf() 函 数 


01 >>>print ("你 好 ") 


02 ”你 好 
03 >>> print ("%s"” % "你 好 ") 
04 你 好 


05 >>> print("%s,%$s" sg(" 你 好 "，" 中 国 ") ) 

06 你 好 , 中国 

07 >>> print ("%s,%s,%d"” $%(" 你 好 ", "中 国 ", 2018)) 
08 ”你 好 ,中 国 , 2018 


09 
10 Printf(" 你 好 ") # 以 下 是 c 语言 的 语句 
11 你 好 

12 printf ("%s", "你 好 ") 

13 ”你 好 


14 printf("%s,%s", "你 好 ", "中 国 ") 

15 ”你 好 ,中 国 

16 printf("%s,%s,%d", "你 好 ", "中 国 ", 2018) 
17 你 好 ,中国 , 2018 


在 例子 4.4 中， 第 1 行 到 第 8 行 是 Python 的 print0 方 法 ， 第 10 行 到 第 17 行 是 C 语言 的 


printftO 函 数 。 从 中 可 以 看 出 ， 两 者 是 非常 相似 的 ， 不 同 的 是 ，printO 方 法 不 是 Python 函数 。 


下 




















下 使 用 Python 的 不 定 参数 来 定义 一 个 和 C 语言 printf0 函 数 一 样 的 函数 : 








>>> def printf (format,*arg): 


print (format%arg) 
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>>> Printf(" 你 好 ") 

你 好 

>>> printf ("%s,%s", "你 好 ", "中 国 ") 
你 好 , 中国 

>>> printf ("%s,%s,%d", "你 好 ", "中 国 ",2018) 
你 好 ,中 国 , 2018 


>>> 


在 Python 中 ， 不 定 参数 使 用 *arg 来 表示 ， 而 arg 实际 是 一 个 元 组 (tuple〉。 它 上 面 存放 














了 输入 的 参数 ， 例 如 : 


>>> def getchange (*arg) : 
print (arg) 


>>> getchange (1,2,3) 
{Er Zo 3 

>>> getchange ("a", "b") 
| 


可 以 通过 访问 元 组 方法 来 访问 可 变 参数 。 例 如 ， 编 写 一 个 累加 所 有 参数 的 函数 : 


>>> def addall (*arg): 
total=0 
for arg_one in arg: 
total+=arg_one 


return total 


>>> addall (1,2,3,4) 
10 
addall (1,2,3,4,8,9) 
2 


对 于 可 变 参 数 ， 除 了 使 用 *arg 来 表示 外 ， 也 可 以 使 用 **argv 来 表示 。 不 同 的 是 ， 使 有 

















**argy 表示 时 ， 可 变 参 数 就 会 放 到 一 个 字典 中 ， 并 且 在 输入 参数 时 必须 说 明 参 数 的 名 字 ; 使 














上 
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*arg 方法 ， 在 输入 参数 的 时 候 ， 不 能 使 用 参数 的 名 字 。 例 如 : 





>>> getall (1) 

(1,) 

>>> getall (1,2) 

(1, 2) 

>>> getall (1,2,3) 

Che Ze 3 

>>> getalll (one=1) 
{'one': 1} 

>>> getalll (one=1, two=2) 


dn 








固定 参数 和 可 选 参数 、 可 变 参数 可 以 组 合 起 来 。Python 优先 接受 固定 参数 ， 然 后 是 可 选 
参数 ， 最 后 是 可 变 参数 ， 所 以 *arg、**argv 只 能 够 放 到 参数 的 最 后 ， 并 且 *arg 必须 放 到 
**argv 之 前 ， 可 变 参 数 只 能 放 到 固定 参数 后 面 。 例 如 : 





>>> def funexe (keyparam, chioce=1lv*argr**keywords) : 


print (keyparam, chioce,arg, keywords) 


>>> funexe( rar brne "ey 

a 

>>> funexe('a’', 'b','c', 'e',three=3) 
a lb (ev er} TEhrees 3 


4.2.3 函数 调用 和 返回 
可 以 使 用 函数 名 称 来 调用 函数 ， 例 如 ， 
>2> funexel'a br cr erthree=3) 
0 ee) 
函数 名 称 本 身 也 可 以 作为 参数 传递 调用 ， 例 如 : 


>>> def addqtwo (avb) : 


return a+b 


>>> addtwo (1,2) 
3 

>>> addl=addtwo 
>>> addl (3,5) 

8 


也 可 以 将 函数 名 作为 参数 传 给 另 一 个 函数 做 调用 ， 例 如 : 


>>> def test2 (fun,a,b): 














return funl(a,b) 


>>> test2 (addl,3,4) 
3 


对 一 个 函数 ， 需 要 有 返 
None 类 型 。 例 如 : 


>>> def addtwo (arb) : 











互 











值 时 ， 可 以 使 用 retum 语句 。 若 不 使 用 retum 语句 ， 则 返回 为 








return at+b 
>>> print (addtwo (2,3)) 


3 
>>> def addtwo (arb) : 
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at+b 


>>> print (addtwo (2,3)) 


None 


4.2.4 lambda 函数 
lambda 函数 是 函数 式 编程 中 的 一 个 概念 。 函 数 式 编程 是 一 种 编程 典范 ， 不 同 于 C 语言 这 
样 的 命令 式 语言 ， 它 将 电脑 运算 视 为 函数 (lambda 演算 ) 计算 的 过 程 。 最 早 的 函数 式 编程 语 
言 是 LISP， 现 代 的 函数 式 编程 语言 有 Haskell、Erlang 等 ， 函 数 式 编程 语言 在 人 工 智能 、 数 
据 挖 掘 、 算 法 设计 等 计算 机 领域 有 着 重要 的 作用 。 
可 以 简单 地 将 lambda 函数 理解 为 一 种 单行 的 匿名 函数 ， 例 如 : 


>>> b=lambda arb:a+b 











>>> b(1,2) 
3 
需要 注意 的 是 ， 匿 名 函数 只 能 有 一 行 代码 ， 可 以 有 多 个 参数 ， 包 括 可 变 参数 ， 但 是 表达 


式 只 能 为 一 个 ， 并 且 只 能 为 简单 的 操作 。 更 本 质地 说 ， 后 面 的 表达 式 是 能 够 返回 一 个 值 的 ， 
不 能 返回 值 的 不 能 放 在 这 里 。 例 如 : 

>>> g = lambda x, y=0, z=0: X+Y+Z 

>>> g(4,5,6) 

Ls 

>>> (lambda x, y=0, z=0: x+y+2z) (1,2,3) 

6 

在 Python 中 ，lambda 函数 可 以 通过 一 些 技巧 来 实现 if 或 者 for 的 功能 ， 代 码 量 则 少 很 
比如 可 以 使 用 and 和 or 表达 式 来 代替 让 语句 ， 例 如 : 


>>> def judage (a): 














3 


if a: 
b=3 
else: 
b=2 
。 return b 
>>> f=lambda a:(a and 3 or 2) 


集合 这 些 lambda 函数 的 特性 ， 可 以 使 用 lambda 函数 以 更 短 的 代码 实现 一 些 需 要 多 条 循 
环 选择 语句 实现 的 功能 。 例 子 4.5 给 出 求 质数 的 两 种 方法 ， 从 中 可 以 看 出 使 用 lambda 函数 和 
普通 函数 求 质 数 的 区 别 。 
例子 4.5 求 质 数 的 两 种 方法 比较 


01 >>> def isPrime (n) : 


02 sa mid = int(pow(n,0.5)+1) 








了 


03 | for i in range (2vmid) : 


04 a if nS% 主 == 0 : return False 
05 i return True 
06 


07 >>> primes=[] 
08 >>> for i in range(2,100): 


09 ee if isPrime(i): primes += [i] 


11 >>> print (primes) 

12 Ber 3 5 Me Tl L377 LI LT9r 237 297r Slr 377 41e /A377 A172 537 S59 G13 
ome TL Tor on Cor Br 9 

ne >>> from functools import reduce 

14 >>> print(reduce(lambda l,y:not 0 in map(lambda x:y % x, 1) and 1l+[y] 
or 1l,range(2,100), [] )) 

15 ee ea on Li La LO 3 207 IL ITO MLo MB A SI Sd oy 
Gn Tir Tr Tr7 Br 097 SI 

16 >>> 


第 1 行 到 第 11 行使 用 普通 的 函数 来 求 100 内 的 所 有 质数 。 第 14 行使 用 了 lambda 函数 方 
法 。 其 中 ，not 0 in map(lambda x:y %x,l) 表示 数 y 能 否 被 1 中 的 任何 一 个 数 整除 ， 继 而 返回 
l+[y] 或 者 1， 这 和 第 4~5 行 的 代码 是 同一 个 作用 。 
对 于 习惯 了 命令 式 编程 的 人 来 说 ， 第 1~11 代码 虽然 较 长 ， 但 是 比较 清晰 易 懂 ， 容 易 维 
护 。 对 于 熟悉 函数 式 编程 的 人 来 说 ， 第 14 行 代 码 不 但 简洁 ， 而 且 可 读 性 更 好 。Python 同时 
提供 了 这 两 种 编程 方式 和 支持 ， 有 具体 使 用 哪 种 ， 要 视 个 人 情况 而 定 。 


4.2.5 ”该 套 函 数 
在 Python 中 ， 可 以 在 函数 内 部 定义 函数 ， 例 如 : 


>>> def getfun (x,y): 
def addfun(a,b): 
return a*b 














return addfun (x,y) 


>>> getfun (2,3) 
6 


对 于 嵌 套 函数 ， 内 层 函数 可 以 访问 外 层 函 数 的 变量 ， 但 是 Python 没有 提供 由 内 而 外 的 绑 
定 措施 ， 所 以 在 使 用 内 层 函 数 访问 外 层 函 数 的 时 候 要 特别 注意 这 一 点 ， 以 免 逻 辑 出 错 。 可 以 
参看 下 面 的 例子 : 
>>> def getfun(x,y): 
a=3 
def test2(): 
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a= 工 


return a 
>>> getfun(1,3) 
= 


在 上 面 的 代码 中 ，getfun0 函 数 的 变量 a 在 test2 中 无 法 被 绑 定 ， 最 后 返回 的 结果 getfun() 
的 变量 a 还 是 绑 定 原来 的 数值 对 象 3。 





4.2.6 ”函数 的 作用 域 

在 Python 中 查找 变量 ， 有 一 个 所 谓 的 LGB 原则 : L 是 local name space， 局 部 命名 空间 
的 意思 ; G 是 global name space， 全 局 命名 空间 的 意思 ; B 是 buildin name space， 内 在 命名 空 
间 的 意思 。LGB 原则 是 指 ， 对 于 一 个 变量 名 称 ， 先 查找 局 部 命名 空间 ， 再 查找 全 局 命名 空 
间 ， 最 后 查找 内 在 命令 空间 。 
例子 4.6 ”函数 作用 域 


01 >>> Var=[] 
02 >>> def test2(): 














03 i var=[1] 

04 = var.append (1) 
05 se return var 
06 >>> 七 est2 () 

07 [1,1] 

08 >>> print (var) 

09 [] 

10 >>> def test3(): 
EE var.append (2) 
上 return var 
3 

14 >>> test3() 

5 [21 

16 >>> print (var) 
| 


例子 4.6 中 的 第 3 行 代码 定义 一 个 变量 为 一 个 列表 。 该 变量 在 局 部 命名 空间 下 ， 所 以 
优先 级 最 高 ， 所 以 在 第 4 行进 行 append 操作 的 时 候 ， 应 该 对 局 部 变量 var 进行 操作 ， 而 不 
是 对 全 局 变量 var 进行 操作 。 第 11 行 没 有 定义 局 部 变量 ， 所 以 append0 操 作 作 用 在 全 局 变 
量 var 上 。 
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人 外. -开始 编程 : 八 皇后 算法 


在 4.1 和 4.2 节 中 讨论 了 Python 的 流程 控制 和 函数 的 用 法 ， 本 节 将 使 用 这 些 知识 点 来 实 
现 八 皇 后 问题 的 算法 。 
【本 节 代 码 参 考 : C04\py_4.7.py】 














4.3.1 八 皇 后 问题 


八 皇 后 问题 : 在 8*8 国际 象棋 棋盘 上 ， 要 求 在 每 一 行 放置 一 个 皇后 ， 且 能 做 到 在 竖 方 
向 、 斜 方向 都 没有 冲突 。 国 际 象棋 的 棋盘 如 图 4.1 所 示 。 











图 4.1 国际 象棋 棋盘 


八 皇 后 问题 是 一 个 古老 而 著名 的 问题 ， 是 19 世纪 著名 的 数学 家 高 斯 于 1850 年 提出 的 : 
在 8*8 格 的 国际 象棋 上 摆 放 八 个 皇后 ， 使 其 不 能 互相 攻击 ， 即 任意 两 个 皇后 都 不 能 处 于 同一 
行 、 同 一 列 或 同一 斜 线 上 ， 问 有 多 少 种 摆 法 。 高 斯 认为 有 76 种 方案 。1854 年 在 柏林 的 象棋 
杂志 上 不 同 的 作者 发 表 了 40 种 不 同 的 解 ， 后 来 有 人 用 图 论 的 方法 解 出 92 种 结果 。 计 算 机 诞 
生 以 后 ， 八 皇后 问题 也 成 为 计算 机 数据 结构 和 算法 的 经 典 题目 。 











4.3.2 问题 分 析 

对 于 这 种 较为 复杂 的 算法 问题 ， 可 以 采用 逐步 试探 的 方法 ， 能 够 继续 前 进 ， 则 更 进 一 
步 ， 如 果 不 能 ， 就 换个 方向 尝试 ， 可 称 之 为 回溯 法 。 

首先 我 们 来 分 析 一 下 国际 象棋 的 规则 。 对 于 一 个 国际 象棋 的 棋盘 ， 每 一 个 点 ， 我 们 都 用 
一 个 坐标 来 表示 ， 这 里 采用 图 4.1 一 样 的 坐标 ， 左 下 角 为 (1，1) ， 右 上 角 为 (8，8) ,一 
个 皇后 (x,y) 能 和 否 被 另 一 个 皇后 (ab) 吃 掉 主 要 取决 于 下 面 四 个 方面 : 


(1) x=a， 两 个 皇后 在 同一 行 上 。 
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(2) y=b， 两 个 皇后 在 同一 列 上 。 
(3) xty=atb， 两 个 皇后 在 同一 斜 向 正方 向 。 
(4) x-y=a-b， 两 个 皇后 在 同一 斜 向 反方 向 。 


有 了 上 面 的 规则 ， 可 以 先 从 第 一 个 皇后 开始 分 析 ， 如 果 将 第 一 个 皇后 放 到 (1，1) 格 
中 ， 那 么 根据 规则 : 


(1) 第 二 皇后 可 以 放 在 (2，3) 、 (2，4) 到 (2，8) 的 任 一 个 ,现在 假设 放 到 (2， 
Ys 

(2) 第 二 皇后 放 到 (2，3)〉 ， 那 么 第 三 个 皇后 只 有 (3，5) 、(3，6) 到 (3，8) 这 四 
种 可 能 可 选择 。 现 在 假设 放 到 (3，5) 。 

(3) 第 三 个 皇后 放 到 (3，5) ， 那 么 第 四 个 皇后 只 有 (4，2) 、 (4, 7) 、 (4，8) 这 
三 种 可 能 可 选 ， 假 设 放 到 (4，2) 中 。 

(4) 第 四 个 皇后 放 到 〈4，2) ， 那 么 第 五 个 皇后 只 有 (5，4) 和 “5，8) 这 两 个 地 方 可 
选 ， 假 设 放 到 (5，4) 中 。 

(5) 第 五 个 皇后 放 在 “5，4) ， 那 么 第 六 个 皇后 没有 安全 的 位 置 可 放 。 


在 摆 到 第 六 个 皇后 时 ， 就 会 无 法 再 继续 下 去 了 ， 这 时 回 到 放 第 五 个 皇后 的 第 二 个 选择 
(5，8) ， 然 后 继续 尝试 第 六 个 皇后 ， 发 现 仍然 没有 安全 的 位 置 ， 只 好 再 回 到 放 第 四 个 皇 
后 ， 继 续 第 四 个 皇后 的 其 他 可 能 。 以 此 类 推 ， 不 断 尝 试 ， 一 直到 放 最 后 一 个 皇后 。 

从 第 一 步 开 始 尝试 ， 逐 步 党 试 后 ， 失 败 了 就 返回 上 一 个 步 又， 尝试 其 他 可 能 。 根 据 上 面 
的 分 析 ， 用 回溯 的 方法 解决 八 皇 后 问题 的 步 又 为 : 

(1) 从 第 一 列 开 始 ， 为 皇后 找到 安全 位 置 ， 然 后 跳 到 下 一 列 。 

(2) 如 果 在 第 n 列 出 现 死胡同 ， 并 且 该 列 为 第 一 列 ， 那 么 棋局 失败 ， 否 则 后 退 到 上 一 
列 ， 再 进行 回溯 。 

(3) 如 果 在 第 8 列 上 找到 了 安全 位 置 ， 那 么 棋局 成 功 。 

















4.3.3 程序 设计 

根据 4.3.2 小 节 对 八 皇 后 问题 的 分 析 ， 八 皇后 问题 的 步骤 在 于 三 步 : 找 安全 位 置 ， 继 续 下 
一 列 ， 如 果 下 一 列 找 不 到 安全 位 置 ， 就 进行 回溯 ， 直 到 八 个 皇后 都 找到 安全 位 置 为 止 。 

对 于 程序 设计 来 说 ， 首 先 设计 象棋 棋盘 的 数据 结构 ， 然 后 编写 安全 位 置 的 判断 ， 最 后 撰 
写 回溯 的 功能 。 

(1) 象棋 棋盘 的 数据 结构 

可 以 用 列表 来 表示 一 个 象棋 棋盘 ， 每 个 列表 里 有 8 个 列表 ， 每 个 列表 有 8 个 元 素 ， 例 如 : 


>>> chess=[[0 for x in range(8)] for x in range(8)] 











>>> print (chess) 
[[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, oO, 
0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, oO, 
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对 于 chess 列表 ， 初 始 元 素 值 均 为 0， 元 素 值 大 于 0 为 不 安全 、0 为 安全 。 


(2) 安全 位 置 的 判断 
根据 象棋 棋盘 数据 结构 的 设计 ， 凡 是 元 素 值 为 0 的 都 是 安全 的 ， 凡 是 元 素 值 不 为 0 的 都 
是 不 安全 的 。 可 以 使 用 下 面 的 函数 来 实现 这 个 功能 : 


>>> def judgedanger (chess,x,y): 




















if chess[x] [Y]==0: 
return True 
else: 


return False 


(3) 回溯 功能 的 实现 

回溯 的 功能 ， 需 要 先 判 断 安全 的 位 置 ， 然 后 将 皇后 放 到 安全 的 位 置 ， 在 将 皇后 放 到 安全 
的 位 置 时 ， 同 时 需要 将 该 皇后 的 吃 棋 范围 记录 到 chess 列表 中 ， 这 样 下 一 步 可 以 根据 chess 列 
表 来 判断 安全 的 位 置 ， 同 理 ， 在 该 位 置 被 认为 无 效 ， 需 要 回溯 的 时 候 ， 同 样 需要 将 棋 的 范围 
位 置信 息 清除 ， 恢 复 到 放 皇 后 之 前 的 状态 。 

实现 记录 吃 棋 范围 信息 的 记录 ， 可 以 使 用 如 下 代码 : 


>>> def setdanger (chess,x,y): 








for col in range(len(chess)): 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row]+=1 
elif row==y: 
chess[col] [row]+=1 
elif col+row==X+y: 
chess[col] [row]+=1 
elif col-row==x-y: 
chess[col] [row]+=1 
else: 


pass 


上 面 的 代码 根据 皇后 吃 棋 的 四 个 判断 规则 对 棋盘 列表 的 每 个 位 置 做 判断 ， 如 果 皇 后 可 以 
吃 到 ， 就 将 位 置 值 加 1， 表 示 该 位 置 不 再 安全 。 

对 于 清除 吃 棋 的 范围 位 置信 息 ， 使 用 相反 的 逻辑 思路 。 和 记录 吃 棋 范 围 信息 相反 ， 它 将 
皇后 可 以 吃 到 的 位 置信 息 减 1， 减 到 0 时 表示 该 位 置 安全 ， 可 以 放 皇 后 。 











>>> def erasedanger (chess,x,y): 
for col in range(len(chess)): 
for row in range(len(chess[0])): 


Ecol==X> 
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chess [co1l] [row] -=1 
elif row==y: 

chess [co1l] [row] -=1 
elif col+row==x+y: 

chess[col] [row] -=1 
elif col-row=—x-y: 

chess[col] [row] -=1 
else: 


pass 


在 上 面 实现 了 记录 吃 棋 位 置信 息 和 清除 吃 棋 位 置信 息 的 函数 后 ， 就 可 以 将 这 两 个 函数 用 
于 回溯 中 的 吃 棋 范围 信息 记录 。 
溯 过 程 中 需要 经 常 判 断 下 一 行 是 否 有 安全 位 置 ， 所 以 先 编写 一 个 判断 一 行 中 有 无 安全 
位 置 的 函数 : 


>>> def judgecol (chess,col) : 























加 








for row in range (Jen(chess[col]l)) : 
if judgedanger (Chess， colv row) : 
break 
else: 
return False 


return True 


在 这 些 代码 的 基础 上 ， 可 以 使 用 回溯 法 。 按 照 4.3.2 小 节 对 回溯 规则 的 分 析 ， 回 溯 的 步 双 
如 下 : 

(1) 将 第 n 个 皇后 放 到 一 个 安全 的 位 置 。 

(2) 将 n 皇后 的 吃 棋 范 围 标 出 ， 尝 试 放置 n+1l 皇后 的 安全 位 置 。 

(3) 如 果 n+l 皇后 无 安全 位 置 ， 就 回溯 到 n 皇后 ， 让 n 皇后 清除 吃 棋 范围 ， 尝 试 下 一 
个 安全 位 置 ， 重 复 第 〈2) 步 。 


根据 上 面 回溯 步骤 的 分 析 ， 可 以 得 到 如 下 代码 : 


01 >>> def tryqueen (chess,col,flag,result) : 





02 本 flag[0]=True 

03 se if col==8: 

04 区 ErzdnttETad) 

05 a else: 

06 ei 卫 下 judgecol (chess,col) : 

07 汪汪 for row in range (len (chess[col])) : 

08 ee if judgedanger (chess,col,row): 

09 sa. print ok” Fstr(lcol)r "tatr (row) 
10 a setdanger (chess, col, row) 

uh i result.append( (col,row)) 

a tryqueen (chess, col+1, flag, result) 
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13 A if flag[0]==False: 


14 a erasedanger (chess, col, row) 
ER result .pop() 

LO sew EL3es 

1 flag[0]=False 





例子 4.7 是 对 上 面 回溯 三 段 分 析 的 实现 。 第 6 行 代码 判断 该 皇后 是 否 还 有 安全 位 置 ， 如 
果 有 ， 就 开始 尝试 放置 到 第 一 个 安全 位 置 ， 在 第 9 行 成 功放 置 到 安全 位 置 ， 第 10 行将 该 皇后 
的 吃 棋 范 围 标 出 来 ， 接 着 在 第 12 行 放置 下 一 个 皇后 ， 如 果 下 一 个 皇后 没有 安全 位 置 (用 flag 
标志 来 表示 ) ， 就 在 第 14 行使 用 erasedanger 清除 吃 棋 范 围 信 息 ， 该 皇后 将 尝试 下 一 个 安全 
位 置 ， 然 后 重复 类 似 的 步骤 。 一 直到 8 个 皇后 全 部 放 到 安全 的 位 置 〈 代 码 第 4 行 ) ， 求 出 八 
皇后 问题 的 一 个 解 。 




















4.3.4 问题 深入 

在 4.3.3 小 节 中 ， 经 过 分 析 ， 已 经 可 以 使 用 函数 求 得 八 皇 后 问题 的 一 个 解 ， 那 么 如 何 取得 
八 皇 后 问题 所 有 的 92 个 解 呢 ? 

在 上 一 小 节 的 代码 中 ， 回 溯 结束 的 条 件 是 ， 当 第 8 个 皇后 可 以 放置 到 象棋 棋盘 中 时 ， 函 
数 将 是 否 有 安全 位 置 的 标志 设置 为 True， 这 样 尝试 的 过 程 就 结束 了 。 如 果 修改 回溯 结束 的 条 
件 为 : 在 第 8 个 皇 放置 到 象棋 棋盘 后 打印 出 结果 列表 ， 并 且 将 标志 人 为 地 设置 为 没有 安全 位 
置 (将 flag[0] 设 置 为 False) ， 那 么 情况 就 如 同 没有 找到 解 一 样 ， 函 数 会 回 湖上 一 次 尝试 的 地 
方 ， 尝 试 下 一 个 可 能 ， 因 为 回溯 结束 条 件 中 的 标志 被 人 为 地 设置 为 没有 找到 ， 这 样 函数 就 会 
尝试 所 有 的 可 能 ， 也 就 可 以 找 出 所 有 的 解 。 

下 面 的 代码 是 对 八 皇后 所 有 解 的 求解 。 


01 >>> def tryqueen (chess,col,flag,result): 


02 i flag[0]=True 

03 oe. if col==8: 

04 due print (result) 

05 局 flag[0]=False 

06 人 else: 

07 二 judgecol (chess, col): 

08 a for row in range (Jen(chess[col]l)) : 

09 a if judgedanger (chess,col,row): 

EE: #print "ok"+str (col)+":"+str (row) 
a 1 setdanger (chess, col, row) 

2 result.append( (col,row)) 

a tryqueen (chess,col+l1, flag, result) 
ne if flag[0]==False: 

15 A erasedanger (chess, col, row) 
El result .pop() 

i Se 
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18 flag[0]=False 


修改 部 分 主要 是 第 4-6 行 ， 第 4 行 开 始 打印 结果 列表 ， 第 5 行将 标志 设置 为 False， 这 样 





tryqueenO 函 数 就 会 一 直 尝 试 下 去 ， 直 到 尝试 了 所 有 可 能 ， 找 出 八 皇后 问题 的 某 个 解 。 


4.3.5 问题 总 结 


法 。 


八 皇 后 问题 是 在 计算 机 算法 上 的 一 个 经 典 题目 ， 解 决 的 算法 也 很 多 ， 最 简单 的 是 穷 举 
穷 举 法 是 对 八 皇 后 所 有 位 置 的 可 能 进行 一 一 判断 〈 总 共有 8 的 8 次 方 个 可 能 ) ， 然 后 从 


中 得 到 符合 要 求 的 92 种 可 能 。 本 小 节 使 用 的 是 较为 复杂 的 算法 : 回溯 法 。 相 比 穷 举 法 ， 回 淹 
法 的 算法 性 能 更 好 一 些 ， 实 现 要 复杂 一 些 。 例 子 4.7 是 用 Python 实现 八 皇 后 回溯 算法 的 完整 
代码 。 
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本 例 的 算法 有 一 些 缺 陷 ， 并 不 能 实现 八 皇后 的 所 有 解 ， 这 里 只 是 用 回溯 法 和 简单 的 函数 : 
给 读者 演示 一 种 求解 的 过 程 ， 等 读者 学 完 所 有 内 容 后 ， 可 以 再 利用 一 些 高 级 内 容 实现 更 : 
好 更 完善 的 算法 。 : 


例子 4.7 八 皇 后 问题 的 Python 回溯 实现 


def setdanger (chess,x,y): 
for col in range(len(chess)): 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row]+=1 
elif row==y: 
chess[col] [row]+=1 
elif col+row==X+y: 
chess[col] [row]+=1 
elif col-row==x-y: 
chess[col] [row]+=1 
else: 


pass 


def erasedanger (chess,x,y): 
for col in range(len(chess)): 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row] -=1 
elif row==y: 
chess[col] [row]—=1 
elif col+row==Xx+y: 


chess[col] [row] -= 工 





第 4 章 流程 控制 和 函数 





tryqueen (chess,0,flag,result) 


人骨 用 i 
To 本 章 小 结 
本 章 讨论 了 Python 的 流程 控制 和 函数 的 相关 知识 点 ， 在 综合 应 用 方面 列举 了 八 皇 后 问题 


的 求解 方法 。 在 学 习 本 章 的 过 程 中 ， 需 要 注意 的 是 : 
@ ”Python 的 for 用 法 和 其 他 语句 颇 为 不 同 。 
@ Python 的 循环 结构 也 可 带 else 语句 ， 这 是 Python 语言 的 特性 。 
@ 使 用 嵌 套 函数 时 ， 目 前 Python 还 不 支持 对 外 层 变 量 的 绑 定 。 


学 习 完 本 章 ， 读 者 可 以 思考 如 下 问题 : 


(1) 如 何 用 穷 举 法 求解 八 皇 后 问题 ? 
(2) 如 果 是 在 一 个 m*n 的 棋盘 上 放置 n 个 皇后 ， 该 如 何 求解 ? 
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s8 5 音 


第 5 章 
< 类 和 和 对象 > 


在 前 面 章 节 的 应 用 案例 中 ， 分 析 有 具体 应 用 时 都 是 以 数据 为 中 心 ， 将 一 个 大 的 功能 分 成 几 
个 模块 ， 把 一 个 复杂 的 问题 分 解 到 若干 子 问题 函数 中 逐个 解决 ， 这 种 方法 称 为 结构 化 编程 模 
式 。 这 种 模式 以 数据 为 中 心 进行 分 析 和 模块 开发 ， 使 得 代码 的 重用 性 、 灵 活性 、 扩 展 性 都 不 
足以 满足 软件 日 益 复 杂 的 需求 。 为 了 解决 这 个 问题 ， 面 向 对 象 的 程序 设计 (Object Oriented 
Programming，OOP) 就 产生 了 。 阅 读本 章 需要 一 些 UML 基础 知识 ， 读 者 可 以 做 一 些 前 置 阅 
读 工 作 ， 利 用 互联 网 了 解 一 下 UML 的 基本 图 形 。 

本 章 的 主要 内 容 是 : 

@@ 面向 对 象 的 由 来 。 

Python 中 的 类 和 对 象 。 

@ 类 的 定义 和 应 用 。 








面向 对 象 


面向 对 象 (Object Oriented) 是 一 种 编程 的 思想 ， 而 不 是 一 种 编程 语言 。 面 向 对 象 的 核心 
[ 念 就 是 抽象 (Encapsulation) 、 继 承 〈Inheritance) 、 多 态 (Polymorphism)。 


5.1.1 面向 对 象 的 历史 

面向 对 象 是 从 20 世纪 90 年 代 才 开始 广泛 使 用 的 编程 模式 ， 但 是 面向 对 象 的 编程 思想 却 
相当 古老 ， 早 在 20 世纪 60 年 代 就 有 人 提出 了 面向 对 象 的 思想 ， 并 且 创造 了 世界 上 第 一 种 具 
备 面 向 对 象 特性 的 语言 Simula-67。 在 20 世纪 70 年 代 ， 施 乐 帕 洛 阿尔 托 研究 中 心 (PARC) 

的 Alan Key 等 人 发 明了 第 二 代 面 向 对 象 SmallTalk， 更 是 影响 深远 ， 对 其 他 众多 的 程序 设计 
语言 的 产生 起 到 了 极 大 的 推动 作用 ， 例 如 C++、Java、Objective-C、Python、Ruby、C# 等 。 








5.1.2 面向 对 象 概述 
面向 对 象 是 一 种 编程 思想 ， 提 倡 在 构造 软件 系统 的 时 候 使 用 贴近 真实 生活 的 思维 方式 来 




















thon 3.7 乡 未 入 


进行 设计 和 编程 。 在 面向 对 象 思 想 中 ， 一 切 均 是 对 象 ， 每 个 对 象 都 有 它 的 属性 和 方法 ， 每 个 
对 象 都 可 以 通过 消息 互相 交互 。 

相对 于 传统 的 结构 化 编程 ， 面 向 对 象 更 贴近 真实 的 生活 ， 因 为 在 真实 生活 中 ， 并 不 是 以 
数据 为 中 心 ， 而 是 含有 各 种 各 样 的 东西 (对 象 ) 。 例 如 ， 一 个 人 去 超市 购买 东西 ， 那 么 在 真 
实生 活 中 ， 这 样 一 个 活动 实际 是 由 顾客 、 商 品 、 售 货 员 等 不 同 的 几 个 对 象 来 相互 发 生 联 系 的 
一 个 过 程 。 在 编写 这 样 一 个 计算 机 程序 的 时 候 ， 以 顾客 、 商 品 、 销 售 员 为 对 象 进行 分 析 ， 显 
然 比 以 商品 的 价格 、 销 售 、 顾 客 的 数量 等 数据 为 中 心 进行 分 析 更 容易 理解 一 些 。 

面向 对 象 的 方法 在 代码 重用 性 、 灵 活性 、 扩 展 性 上 都 要 比 结构 化 编程 模式 更 好 一 些 。 例 
如 ， 编 写 一 个 超市 的 销售 程序 。 结 构 化 编程 模式 以 数据 为 中 心 ， 关 心 的 是 数据 ， 例 如 商品 数 
量 、 价 格 、 库 存 、 销 售 总 数 等 。 采 用 这 种 方法 就 会 将 一 个 超市 的 销售 程序 分 成 更 小 的 若干 模 
块 ， 如 图 5.1 所 示 。 





进货 








商品 总 数 


库存 数量 | 一 库 有 有 处理 






































销售 总 额 
一 一 一 | 销售 








图 5.1 超市 销售 程序 的 结构 化 分 析 


采用 结构 化 的 编程 思想 ， 将 超市 的 销售 活动 分 解 成 3 个 功能 模块 来 完成 ， 如 果 这 个 超市 
销售 程序 不 需要 再 扩展 功能 ， 倒 也 没什么 问题 ， 但 是 软件 的 一 大 特点 就 是 随 业 务 变 化 快 ， 更 
新 和 扩展 功能 更 是 如 此 。 例 如 ， 超 市 要 求 程序 员 对 该 程序 增加 会 员 的 功能 ， 在 销售 的 时 候 会 
员 可 以 对 特定 商品 进行 打折 优惠 ， 这 时 程序 员 就 倒霉 了 ， 只 能 修改 销售 模块 ， 增 加 有 关 会 员 
的 逻辑 ， 还 要 增加 会 员 和 折扣 数据 的 处 理 ， 这 些 都 需要 在 原 有 的 代码 基础 上 做 改动 ， 当 然 不 
会 是 一 件 轻松 的 事 。 

面向 对 象 的 编程 则 没有 这 个 问题 。 面 向 对 象 的 编程 思想 本 来 就 以 对 象 为 分 析 的 出 发 点 ， 
超市 的 销售 活动 可 以 看 成 顾客 、 售 货 员 、 钱 柜 、 货 架 、 商 品 这 几 个 不 同 的 对 象 互相 交互 的 过 
程 : 顾客 从 货架 上 取出 商品 ， 付 钱 给 售货员 ， 售 货 员 把 钱 放 进 钱柜 ， 新 的 商品 到 了 ， 放 到 对 
应 的 货架 。 图 5.2 所 示 就 是 按 这 种 分 析 得 到 的 结果 。 
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-结束 3 -结束 4 





图 5.2 超市 销售 程序 的 面向 对 象 分 析 


正 因为 面向 对 象 的 模式 更 贴近 真实 的 生活 ， 所 以 当 需 求 变化 的 时 候 ， 也 就 能 很 方便 地 做 
扩展 了 。 例 如 ， 超 市 销售 程序 需要 扩展 功能 : 对 顾客 进行 分 类 处 理 ， 对 会 员 做 折扣 处 理 ， 对 
非 会 员 进行 非 折 扣 处 理 。 这 样 的 功能 改造 对 结构 化 分 析 模 型 来 说 是 不 简单 的 事情 一 一 需要 重 
新 改造 数据 流程 ， 工 作 量 比较 大 ; 对 面向 对 象 模型 来 说 ， 则 较为 方便 ， 只 需要 使 用 面向 对 象 
的 继承 特性 ， 对 顾客 类 进行 改造 就 可 以 了 ， 不 需要 去 更 改 整 个 框架 。 图 5.3 是 使 用 继承 对 顾 
客 类 的 改造 。 

















Eq 
购买 商品 0 
付款 0 





图 5.3 顾客 类 的 改造 
图 5.3 在 原来 的 模型 上 为 顾客 新 建立 两 个 子 类 。 所 谓 子 类 ， 就 是 继承 了 父 类 的 属性 和 方 
法 ， 顾 客 有 两 个 方法 〈 购 买 商品 和 付款 ) ， 那 么 会 员 顾客 和 非 会 员 顾客 作为 他 的 子 类 ， 天 然 
地 就 拥有 了 和 顾客 一 样 的 方法 ， 这 就 叫 继承 。 
对 于 会 员 顾客 ， 他 付款 的 情况 和 普通 顾客 不 一 样 ， 他 买 东西 可 以 打折 ， 付 得 更 少 一 点 ， 
那么 会 员 顾客 的 类 可 以 在 他 父 类 的 基础 上 进行 修改 ， 他 的 付款 方法 可 以 和 父 类 的 付款 方法 不 
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一 样 。 售 货 员 在 收 钱 时 ， 会 自动 根据 顾客 的 情况 调用 不 同 的 付款 方法 ， 这 就 叫 多 态 。 

有 了 继承 和 多 态 ， 对 超市 销售 程序 的 改造 就 无 须 那 么 伤 筋 动 骨 了 ， 主 流程 不 变 ， 只 不 过 
为 顾客 类 加 了 两 个 子 类 ， 而 售货员 又 能 根据 顾客 类 的 不 同 ， 自 动 调 用 他 们 的 付款 函数 ， 所 以 
其 他 部 分 代码 都 无 须 更 改 ， 这 就 是 面向 对 象 的 好 处 。 


5.1.3 面向 对 象 小 结 

简单 地 说 ， 所 谓 面向 对 象 编程 模式 ， 就 是 以 对 象 为 中 心 来 设计 和 开发 程序 ， 也 就 说 将 现 
实 的 软件 需求 抽象 成 不 同 的 对 象 和 对 象 之 间 的 交互 过 程 ， 并 且 按 照 现实 中 的 流程 搭建 不 同 对 
象 之 间 交 互 的 模式 。 

传统 的 结构 化 设计 ， 着 重 于 数据 和 算法 ， 一 般 在 编写 时 ， 主 要 精力 都 放 在 算法 的 设计 和 
编写 上 。 面 向 对 象 设计 更 看 重 对 象 之 间 交 互 的 模式 ， 更 偏重 于 精心 设计 对 象 的 模式 ， 越 是 灵 
活 、 越 是 重用 性 高 的 模式 越 可 以 带 来 以 后 功能 扩展 升级 和 维护 的 方便 。 在 面向 对 象 的 不 断 应 
1 中， 有 些 模式 被 认为 具有 优秀 的 灵活 性 、 扩 展 性 、 重 用 性 ， 这 些 模 式 就 成 为 经 典 的 设计 模 
式 ， 这 也 是 软件 设计 模式 的 由 来 (Design Patterns) 。 

对 于 面向 对 象 的 初学 者 来 说 ， 有 关 面 向 对 象 的 思想 ， 只 需要 记 住 以 下 几 个 概念 就 可 以 了 : 

@ 类 

类 就 是 类 别 或 者 类 型 ， 是 用 来 定义 对 象 的 。 比 如 说 狗 是 一 种 动物 类 型 ， 有 一 只 小 狗 叫 旺 
旺 ， 旺 旺 就 是 对 象 〈 狗 类 的 对 象 ) ， 在 计算 机 术语 里 ， 又 称 旺旺 是 狗 的 实例 化 。 

昌 对象 

对 象 是 类 的 实例 化 ， 是 以 类 为 模板 创造 出 来 的 ， 比 如 整数 类 型 是 一 个 类 ， 但 是 数值 3 是 
一 个 对 象 ， 是 一 个 整 型 对 象 ， 是 以 整数 类 型 为 模板 创造 出 来 的 。 

@ 继承 

继承 又 叫 泛 化 ， 是 可 以 使 一 个 类 获得 另 一 个 类 所 有 属性 和 方法 的 能 力 ， 被 继承 的 类 称 为 
父 类 或 者 基 类 ， 继 承 的 类 被 称 为 子 类 或 者 派生 类 ， 一 般 来 说 ， 父 类 比 子 类 更 抽象 ， 更 加 泛 
泛 ， 所 以 又 叫 泛 化 。 例 如 ， 水 果 比 苹果 更 抽象 ， 车 比 汽车 更 泛泛 。 

@ 多 态 

通过 继承 联系 在 一 起 的 各 个 不 同类 的 对 象 可 针对 同样 的 消息 〈 方 法 调用 ) 做 出 不 同 的 响 
应 ， 发 送 给 多 个 类 型 的 对 象 相同 的 消息 会 呈现 出 “多 种 形态 ”， 比 如 说 几何 形状 是 一 个 父 
类 ， 正 方形 、 圆 形 、 三 角形 、 和 矩形 是 它 的 子 类 ， 它 们 都 有 一 个 共同 的 方法 计算 面积 ， 虽 然 正 
方形 、 圆 形 、 三 角形 、 和 矩形 的 计算 方法 完全 不 一 样 ， 但 是 在 使 用 的 时 候 只 需要 调用 同样 的 计 
算 面 积 的 方法 ， 它 们 会 按照 不 同 的 方式 来 计算 ， 使 用 者 无 须 关 心 它们 (各 种 形状 〉 具体 的 计 
算 细 节 ， 这 就 叫 多 态 。 
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Python 类 和 对 象 


虽然 Python 本 质 上 的 一 切 均 是 对 象 ， 但 是 在 使 用 形式 上 并 不 强制 程序 员 使 用 面向 对 象 的 
模式 来 编写 程序 ， 程 序 员 仍然 可 以 使 用 结构 化 的 编程 思路 ， 直 接 使 用 函数 等 。 在 Python 中 ， 
函数 也 是 一 种 对 象 ， 不 管 应 用 何 种 模式 来 使 用 ，Python 的 根源 仍然 是 面向 对 象 的 。 


5.2.1 类 的 定义 
类 由 属性 和 方法 组 成 。 在 Python 中 ， 使 用 关键 字 class 来 定义 类 ， 语 法 如 下 : 


class ClassName (father class name): 






















































































<statement-1> 


<statement-N> 


新 式 类 。 


其 中 ，ClassName 表示 自 定义 类 的 名 字 ，statement 是 类 成 员 表 达 式 ， 可 以 为 属性 也 可 以 
为 方法 ， 例 如 : 
>>> class customer (object) : 
buy_dict={} 
def buyl(self,pro name,price): 


self.buy dict[pro name]=price 


在 上 面 的 例子 中 ， 定 义 了 类 的 名 字 (customer) ， 这 个 类 继承 于 父 类 object 类 。 它 有 两 
个 成 员 buy_dict 是 属性 ，buy 是 方法 。 类 属性 定义 可 以 在 class 下 面 显 式 地 定义 ， 也 可 以 在 
方法 里 面 隐 式 地 定义 ， 例 如 : 


>>> Class TestA(object): 








Value=0 
def printf (self): 
print (value) 
>>> class TestB (object): 
def printf (self): 
self.value=0 


print (self.value) 


TestA 和 TestB 都 有 属性 value， 只 不 过 一 个 是 在 class 下 显 式 地 定义 ， 而 另 一 个 是 在 





87 


TestB 的 方法 printf0 中 隐 式 地 定义 。 需 要 特别 注意 的 是 ， 在 方法 中 隐 式 定义 属性 的 时 候 ， 要 
在 属性 名 前 加 self， 这 是 显 式 和 隐 式 最 大 的 不 同 。 

类 方法 的 定义 和 函数 的 定义 非常 相似 ， 并 且 函 数 所 支持 的 调用 方法 ， 类 方法 也 全 都 支 
持 。 不 同 的 是 ， 类 方法 的 第 1 个 参数 必须 为 默认 的 self， 定 义 Python 类 方法 时 没有 带 self 的 
参数 是 最 容易 犯 的 错误 。 























5.2.2 类 的 实例 化 
所 谓 实例 化 ， 就 是 创建 一 个 类 的 对 象 。 定 义 一 个 类 ， 只 是 造 出 一 个 类 型 ， 这 个 类 型 只 有 
实例 化 成 对 象 ， 才 有 真正 的 使 用 意义 。Python 有 很 多 内 置 的 类 型 ， 比 如 数值 类 型 、 列 表 类 
型 、 字 典 类 型 。 这 些 类 本 身 是 没有 用 的 ， 只 有 拿 它 们 去 定义 一 个 数字 〈 对 象 ) 、 一 个 列表 对 
象 、 一 个 字典 对 象 ， 才 有 真正 的 意义 。 同 样 的 ， 当 定义 一 个 类 时 ， 这 个 新 定义 的 类 型 是 没有 
用 的 ， 需 要 以 它 为 模板 去 创造 真正 可 以 使 用 的 对 象 。 
实例 化 一 般 通 过 直接 调用 类 名 方法 来 创建 ， 例 如 
>>> class TestA(object): 
value=0 
def printf (self): 


print (self.value) 


>>> a=TestA() 
>>> aprintt() 


在 上 面 的 例子 中 ， 就 是 使 用 类 TestA 实例 化 了 一 个 对 象 a，a 拥有 TestA 定义 好 的 属性 和 
方法 ， 第 2 章 在 介绍 内 置 类 型 的 时 候 ， 实 例 化 那些 内 置 类 型 ， 都 是 使 用 内 置 语法 层次 来 实例 
化 ， 实 际 上 Python 任何 类 型 都 是 面向 对 象 意义 上 的 类 ， 所 以 都 可 以 使 用 通用 的 实例 化 方法 。 
例子 5.1 是 对 内 置 类 型 实例 化 的 展示 。 
例子 5.1 内 置 类 型 实例 化 


01 >>>a=1 





























02 >>>b=int (1) 
03 >>>type (a) 

04 <class "int'> 
05 >>> type(b) 
06 <class'int'> 
07 >>> a=l1. 

08 >>>b=float (1) 
09 >>>type (a) 


loM<clasal ECat > 
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11 >>> type (b) 

正人 wolass flont > 

13 >>> a={1:2,2:3} 

14 >>> b=dict([(1,2), (2,3)]) 
L955 Drinttby 

TO MT FE 下 

wa=() 

18 >>>b=tuple() 

19 >>>print (b) 

20 () 


例子 5.1 使 用 两 种 方法 来 实例 化 这 些 类 型 : 一 是 语法 层次 上 ， 二 是 使 用 类 的 通用 实例 化 
方法 。 这 两 个 方法 是 等 价 的 。 从 语法 层次 上 来 实例 化 这 些 内 置 类 型 是 为 了 使 用 更 加 方便 直 
接 ， 比 如 列表 类 型 。 如 果 不 使 用 [] 来 实例 化 ， 也 可 以 使 用 list0 来 实例 化 ， 但 是 这 样 就 没有 那 
么 直观 方便 了 。 














5.2.3 ”类 的 方法 
简单 说 ， 类 的 方法 就 是 在 类 的 内 部 所 定义 的 函数 ， 只 不 过 这 个 函数 的 首 个 参数 必须 为 
self〈 代 表 自 身 ) 。Python 用 self 关键 字 表示 自己 本 身 ， 在 方法 内 部 调用 本 身 的 属性 和 方法 都 
必须 使 用 self。 对 于 类 的 方法 有 三 大 原则 : 
@@ 类 方法 的 第 一 个 参数 必须 是 self。 
@@ ”类 方法 里 面 调用 类 本 身 的 属性 和 方法 ， 都 必须 在 属性 和 方法 前 加 self。 
@@ 类 方法 的 名 字 开 头 可 以 为 下 划 线 或 者 字母 ， 不 可 为 其 他 字符 。 如 果 类 方法 名 字 的 开 
头 为 两 个 下 划 线 并 且 结 尾 不 为 两 个 下 划 线 ， 就 是 私有 方法 。 所 谓 私 有 方法 ， 就 是 只 
能 为 类 的 其 他 方法 调用 的 方法 。 
例如 5.1 节 的 超市 销售 程序 ， 需 要 定义 一 个 会 员 顾 客 的 类 ， 会 员 顾 客 拥 有 购买 水 果 打 折 
的 权力 ， 但 是 会 员 对 不 同 的 水 果 有 不 同 的 折扣 【苹果 是 九 折 ， 桃 子 是 八 折 ， 香 蕉 是 七 折 ) 。 
要 定义 这 样 的 一 个 类 ， 需 要 定义 两 个 方法 : 一 个 是 购买 方法 ， 一 个 是 打折 方法 ， 并 且 打 折 方 
法 只 提供 给 购买 方法 使 用 《〈 因 为 打折 行为 在 买 东西 时 才 会 产生 ) ， 这 样 需要 将 打折 方法 定义 
为 私有 方法 。 例 子 5.2 是 会 员 顾 客 的 类 定义 。 
例子 5.2 会员 顾客 的 类 定义 


01 >>> class vipcust (object): 























2 def buy_ some (self,prod name,price): 

"ke disct price=self. disct(prod name,price) 
04 ... self.prod dictl[prod name]=disct price 
有 def _ disctl(self,prod name Price) : 

让 if prod_name==" 苹 果 " : 

1 A return price*0.9 
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D8 oN elif prod_name==" 桃 子 " : 


1 return price*0.8 

i elif prod name-==" 香 欧 ": 
bh return price*0>7 

下 多 2 吕 芭 else: 

be return price 

14 

T1590>>> 


在 例子 5.2 中 ， 定 义 了 两 个 方法 : buy_some0 和 disctD)。buy_some0O 是 会 员 顾客 的 购买 
方法 ， 把 顾客 购买 的 物品 名 字 和 价格 保存 到 属性 prod_dict 中 。 因 为 会 员 顾客 有 打折 的 权力 ， 
在 购买 时 ， 先 要 对 商品 进行 打折 ， 所 以 会 员 又 为 顾客 类 定义 了 一 个 _disct0 方 法 。 因 为 会 员 
打折 只 需要 被 会 员 类 的 购买 方法 调用 ， 所 以 可 以 定义 成 私有 方法 ， 也 就 是 在 方法 前 面 加 两 个 
下 划 线 。 定 义 完 打 折 方 法 以 后 ，buy_some( 方 法 先 调用 _disct( 方 法 再 保存 会 员 客户 购买 的 物 
品 和 价格 。 





5.2.4 ”类 的 特殊 方法 
在 Python 类 的 方法 中 ， 有 一 部 分 特殊 的 方法 ， 它 们 不 同 于 普通 类 的 方法 ， 主 要 包括 两 
类 : 类 的 初始 化 函数 和 析 构 函数 、 类 的 操作 符 方法 。 


1. 类 的 初始 化 函数 和 析 构 函数 


类 的 初始 化 函数 和 析 构 函数 分 别 是 _init 和 del _。 初 始 化 函数 是 在 类 被 实例 化 为 对 
象 时 调用 的 函数 ， 析 构 函 数 是 在 对 象 被 del 操作 从 内 存 中 外 载 时 所 调用 的 函数 。 可 以 看 下 面 
的 例子 : 
>>> class TestA (object): 
dor “Anite (selE)s 
print ("TestA 被 创建 了 ") 
deF "del (sel)s 
print ("TestA 被 删除 了 ") 





>>> aa=TestA() 
TestA 被 创建 了 
>>> del aa 
TestA 被 删除 了 


>>> 
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2. 类 的 操作 符 方法 


操作 符 方法 就 是 让 类 支持 加 、 减 、 乘 、 除 等 各 种 运算 的 方法 ， 数 值 类 型 、 列 表 、 元 组 等 


类 型 都 是 通过 实现 这 些 操作 符 方法 得 到 了 进行 加 、 减 、 乘 、 除 的 操作 能 力 。 在 自 定义 的 
中 ， 同 样 可 以 实现 这 些 方 法 来 支持 各 种 操作 符 运算 。 


例如 ，_add ”是 加 法 运算 的 特殊 方法 ， 只 要 在 类 里 面 实现 了 该 方法 ， 就 可 以 支持 加 法 





算 : 
>>> class TestA: 
bb=3 
def adqd (self,value): 


return self.bbt+value 


>>> a=TestA() 
>>> a+7 
10 


Python 所 支持 的 操作 符 方法 非常 多 ， 常 用 的 方法 可 参见 表 5-1。 
表 5-1 Python 常用 操作 符 方法 


| | | 一 运算 符 方法 


类 


运 
























































两 个 对 象 相 加 add 
减 两 个 对 象 相 减 sub 
mul 
= 两 个 对 象 相 除 div 
返回 除法 的 余数 mod 
把 一 个 数 的 比特 向 左 移 一 定数 目 lshift 
把 一 个 数 的 比特 向 右 移 一 定数 目 rlshift 
数 的 按 位 与 Tand 
按 位 或 数 的 按 位 或 TOT 
按 位 异 或 数 的 按 位 异 或 xor 
按 位 翻转 x 的 按 位 翻转 invert 
小 于 xX<y 返回 x 是 否 小 于 y lt 
x>y 返回 x 是 否 大 于 y gt 
X< 一 le 
x>=y 返回 x 是否 大 于 等 ge 
xy a eq 
! x!=y ”比较 两 个 对 象 是 否 不 相等 ne 
+= 自身 加 x+ty， 将 y 加 到 x 中 去 ， 等 同 于 x=x+y iadd 
= 自身 减 x+ty， 将 y 从 x 中 减 去 ， 等 同 于 x=x-y isub 
x[i:j] 切片 访问 x 的 i 到 j 的 部 分 z getslice 
x[j] 下 标 访问 通过 j 下 标 访问 x getitem 
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操作 符 方法 的 定义 方法 和 普通 方法 是 一 样 的 ， 只 要 重 载 了 运算 符 对 应 的 运算 符 方 法 ， 那 
么 类 就 可 以 使 用 运算 符 了 。 

















5.2.5 ”类 的 继承 

继承 又 叫 泛 化 ， 是 使 一 个 类 获得 另 一 个 类 所 有 属性 和 方法 的 能 力 ， 被 继承 的 类 称 为 父 类 
或 基 类 ， 继 承 的 类 被 称 为 子 类 或 派生 类 。 继 承 用 来 描述 类 型 上 的 父子 关系 。 例 如 ， 苹 果 是 水 
果 的 一 种 ， 水 果 和 苹果 就 是 父子 关系 ， 苹 果 就 继承 了 水 果 的 特性 。 

在 Python 中 ， 继 承 的 语法 是 : 

class <name> (superclassl,superclass2,...): 

1 单一 继承 

Python 子 类 可 以 有 一 个 或 者 多 个 父 类 ， 子 类 会 自动 获得 父 类 的 所 有 属性 和 方法 。 如 果 一 
个 子 类 只 有 一 个 父 类 ， 就 叫 作 单一 继承 。 例 子 5.3 是 Python 单一 继承 的 用 法 。 
例子 5.3 Python 单一 继承 


01 >>> class TestA (object) : 


D2 a=0 

| 15 def printf (self): 

| 1 5 print ("this is TestA") 
1 

06 >>> class TestB (TestA): 

OR b=3 

OG So def printf (self): 

[1] print ("this is TestB") 
和 def printA(self): 

"1 TestA.printf (self) 

了 


13 >>> bb=TestB () 
14 >>> bb.a 


15 0 
Le >>>; ED 
bh 


18 >>>, pbs printE() 

19 this 1s TestB 

20 >>> bb.printA() 

21 this is TestA 

22 >>> class TestB (TestA): 


2 b=3 

24 A def printf(lself)s 

有 peintt "this Ls TestBey 
> def printA(self): 
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super (TestB, self) .PrintEfE() 


>>> bb.printA() 
this Ts TestaA 


例子 5.3 中 第 1 行 定 义 一 个 类 TestA， 第 6 行 定义 了 一 个 新 类 TestB 继承 了 TestA) 。 


TestB 实现 了 两 个 方法 : 一 个 是 printtD， 一 个 是 printA0。 在 printAO 里 面 调 上 
printf0 方 法 ， 这 种 调用 父 类 的 方法 有 一 个 缺点 ， 就 是 当 TestA 的 父 类 改变 时 ， 假 如 











了 父 类 的 








0 TestA 本 


来 是 TestB 的 子 类 ， 现 在 要 改 为 TestC 的 子 类 ， 因 为 是 用 父 类 的 名 字 去 调用 方法 的 ， 所 以 就 


要 将 所 有 使 














日 TestB 类 名 来 调用 父 类 的 方法 都 手动 改 为 TestC， 这 样 就 麻烦 了 ， 所 以 Python 
在 2.2 版 本 后 提供 了 一 个 自动 表示 父 类 函数 的 方法 : super()。 


super0 方 法 是 提供 给 子 类 自动 寻找 父 类 的 。 在 例子 53 中 的 第 27 行 
(super(TestB,self).printf() ) 中 ，super 根据 TestB 找到 了 它 的 父 类 TestA， 然 后 调用 它 的 


printf0) 方 法 ， 效 果 上 和 直接 使 用 TestA.printf(sel) 方 法 是 一 致 的 。 


2. 多 重 继承 


多 重 继承 是 指 一 个 子 类 有 好 几 个 父 类 。 多 重 继承 是 一 个 颇 有 争议 的 特性 ， 在 C++ 中 颇 受 
人 诉 病 ，Java 用 接口 取代 了 多 重 继承 ， 不 过 Python 仍然 保留 了 对 多 重 继承 的 支持 。 例 子 5.4 
是 多 重 继承 的 例子 。 


例子 5.4 ”Python 多 重 继承 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
ii 
T2 
13 
14 
15 
16 
区 
18 
LD 
20 
2 


>>> Class Al(object): 
def Printf(self) : 
Peint( RAY 


>>> class Bl(object): 
def printf (self): 
Print(”B™) 


>>> class C(A,B): 
def printf (self): 
printte™) 
print (A.printf (self)) 
print (B.printf (self)) 
>>> bb=C () 
>>> bb.printf() 
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其 实 类 就 是 将 属性 和 方法 捆绑 在 一 起 ， 可 以 用 这 个 组 合 为 模板 实例 化 一 个 个 对 象 ， 就 像 
把 轮胎 、 发 动机 、 钢 铁 组 合 起 来 ， 起 个 名 字 叫 汽车 ， 然 后 按照 这 个 汽车 的 样子 就 可 以 生产 一 
辆 辆 的 小 汽车 。 继 承 就 是 在 原来 组 合 的 基础 上 ， 加 上 想 添加 的 组 合 ， 比 如 在 普通 轿车 的 概念 
上 加 些 敞篷 、 电 子 设备 ， 就 叫 跑车 。 多 重 继承 是 将 多 个 组 合 混合 到 一 起 ， 在 这 基础 上 再 添加 
一 些 想 添加 的 东西 。 


3. 重 载 


在 图 5.4 中 ， 类 A 有 一 个 属性 A、 一 个 方法 B， 然 后 类 B 继承 类 A; 类 B 拥有 一 个 属性 
A、 一 个 方法 B， 同 时 新 增 了 一 个 方法 C。 如 果 类 B 再 新 增 一 个 方法 B， 那 么 类 B 就 有 两 个 
方法 B， 一 个 继承 而 来 ， 一 个 自 定 义 ， 它 们 该 如 何 共存 于 类 B 中 呢 ? 答案 是 自 定义 的 方法 B 
会 覆盖 继承 而 来 的 方法 B。 在 面向 对 象 中 ， 这 种 子 类 覆盖 父 类 的 方法 称 为 重 载 。 图 5.5 中 虚 
线 框 表示 被 重 载 的 方法 。 


























































































































图 5.4 类 的 单一 继承 图 5.5 类 方法 的 重 载 


类 方法 重 载 不 只 是 存在 于 子 类 重 载 父 类 中 ， 也 存在 于 多 重 继承 的 时 候 ， 父 类 之 间 的 方法 
也 会 重 载 ， 重 载 的 顺序 是 从 右 往 左 。 在 同名 的 方法 中 ， 最 后 保留 的 是 第 1 个 父 类 的 方法 。 例 
子 5.5 是 父 类 方法 重 载 的 演示 。 
例子 5.5 父 类 方法 的 重 载 


01 >>> class Al(object): 


02 ... a= 工 

[1 def printf (self): 
17 ER 

05 


06 >>> class Bl(object): 
07 =. a=2 
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08 def Printf(self) : 


| print({"B") 
0 

11 >>> class C(object) : 

12 ve a=3 

1 def printf(self): 
US EEC 

15 >>>class D(A, B, C): 
LS pass 

17 


18 >>> aa=D() 

19 >>> aa.printf() 
20 A 

”和 

2 


第 15 行 的 D 是 继承 A、B、C 的 类 ,但 是 A、B、C 的 属性 和 方法 是 一 样 的 ， 都 是 a 和 
printt0)，D 在 继承 的 过 程 中 是 从 右 向 左 重 载 ， 后 一 个 方法 覆盖 前 一 个 方法 ， 最 后 保留 的 是 A 


的 方法 。 图 5.6 更 清晰 地 说 明了 这 一 点 。 























































类 A 的 属性 A 
类 A 的 方法 B 























图 5.6 多 重 继承 的 方法 重 载 





























在 编写 面向 对 象 程序 的 时 候 ， 通 常 都 先 画 出 类 和 类 之 间 的 关系 ， 国 际 上 通用 UML 


(Unified Modeling Language) 的 规范 来 绘画 类 和 类 的 关系 ， 











般 | 











方形 框 来 表示 类 ， 用 空 三 


角 箭 头 和 实 线 来 表示 一 个 类 继承 了 另 一 个 类 。 图 5.7 是 用 该 方法 来 绘制 例子 5.5 的 示意 图 。 
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[| 
Es 





| 
= | 
图 5.7 多 重 继承 的 UML 类 图 


5.2.6 ”类 的 关联 和 依赖 

在 5.2.5 节 讨论 了 类 的 继承 〈 泛 化 ) 关系 ， 实 际 上 在 面向 对 象 程序 设计 中 ， 最 重要 的 一 个 
问题 是 去 区 分 类 以 及 类 和 类 的 关系 。 类 的 关系 除了 继承 之 外 ， 还 有 依赖 、 关 联 ， 以 及 聚合 和 
组 合 。 

1. 依 赖 

依赖 具有 某 种 偶然 性 。 比 如 说 我 要 过 河 ， 没 有 桥 怎 么 办 ， 借 一 条 小 船 渡 过 去 。 我 与 小 船 
的 关系 仅仅 是 使 用 〈 借 用 ) 的 关系 。 表 现在 代码 上 为 依赖 的 类 的 某 个 方法 以 被 依赖 的 类 作为 
其 参数 。 如 果 A 依赖 于 B， 就 意味 着 B 的 变化 可 能 要 求 A 也 发 生变 化 ， 在 UML 绘图 中 ， 
般 用 一 个 带 虚线 的 箭头 来 表示 ， 以 人 借 船 过 河 为 例子 。UML 图 就 如 图 5.8 所 示 。 


<< 数 据 类 型 >> << 数 据 类 型 >> 
人 船 





Ht 使 用 船 过 河 O 


图 5.8 ”依赖 关系 的 UML 图 
根据 这 个 图 ， 在 Python 中 的 代码 实现 如 下 : 


>>> class Person(object) : 
def gobyboat (self,boat): 


boat .overriver() 


>>> class Boat (object): 
def overriver(self): 


pass 


上 面 的 代码 有 两 个 类 ，Person 和 Boat 类 。Person 类 的 方法 gobyboat0 需 要 boat 作为 参数 
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传 入 ， 这 样 才能 调用 boat 的 过 河 (overriver0) 方法 ， 这 就 叫 依赖 ，Person 依赖 于 Boat。 

2. 关 联 

关联 表示 一 种 结构 上 的 关系 (如 从 属 关 系 ) 。 比 如 一 个 学 生 类 、 一 个 成 绩 类 ， 两 者 的 关 
联 是 一 个 学 生 有 多 门 成 绩 。 关 联 一 般 在 UML 图 上 用 没有 箭头 的 实 线 表 示 ， 有 单 向 关联 、 双 
向 关联 、 自 我 关联 等 各 种 关系 。 例 如 ， 一 个 企业 有 很 多 个 员工 ， 企 业 和 员工 就 是 关联 关系 ， 
这 是 单 向 关联 关系 。 图 5.9 展示 了 这 种 UML 的 关联 关系 。 





| |* [| 


图 5.9 关联 关系 的 UML 图 


图 5.9 表示 了 一 个 单 向 关联 关系 ， 表 明 一 个 企业 有 N 个 员工 。 在 Python 代码 实现 上 ,一 
般 关 联 关系 都 是 用 一 个 类 作为 另 一 个 类 的 成 员 属性 ， 例 如 : 

>>> class employee (object) : 

id=0 

name=" 
>>> class company (object): 

def nit (serE): 

self.employeer=employee() 


上 面 是 关联 关系 的 代码 举例 ，company 类 有 属性 employee， 所 有 company 可 以 通过 
employee 来 访问 employee 的 属性 和 方法 ， 关 联 关系 要 比 依赖 关系 更 加 紧密 ， 所 以 又 把 依赖 
关系 称 为 弱 关 联 。 


5.2.7 类 的 聚合 和 组 合 

聚合 和 组 合 (复合) 也 是 类 之 间 的 关系 之 一 ， 其 实 都 是 关联 的 特例 ， 都 是 整体 和 部 分 的 
关系 。 它 们 的 区 别 在 于 聚合 的 两 个 对 象 之 间 是 可 分 离 的 ， 它 们 具有 各 自 的 生命 周期 。 组 合 往 
往 表 现 为 一 种 唇齿 相依 的 关系 。 实 际 上 这 两 种 关系 在 语法 上 一 样 ， 区 别 在 于 语义 上 。 在 语法 
上 ， 都 是 将 另 一 个 类 作为 自己 的 属性 ， 这 样 就 叫 聚 合 或 组 合 ， 例 如 : 


>>> Class Al(object): 











pass 


>>> class Bl(object): 


pass 
>>> class C(object): 


a=A() 
b=B () 
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>>> Class Dl(object): 
b=B() 


在 上 面 的 代码 中 ， 类 C 有 两 个 属性 a 和 b， 所 以 C 和 A、B 的 关系 就 是 聚合 ，C 是 将 
A、B 类 聚合 到 自己 身上 ， 而 B 类 还 作为 D 类 的 一 部 分 ， 而 A 只 能 作为 类 C 的 一 部 分 ， 那 么 
类 C 和 A 就 是 生死 与 共 的 一 个 关系 ， 没 有 C 就 不 存在 A〈 因 为 A 只 给 C 当 属 性 使 用 ) ， 那 
么 A 和 C 就 是 一 个 组 合 关系 ， 而 B 和 A 是 聚合 关系 。 

在 UML 中 ， 聚 合 关系 用 一 个 空心 凌 形 带 实 线 来 表示 ， 组 合 关系 则 是 用 一 个 实心 的 尧 形 
带 实 线 来 表示 。 图 5.10 是 类 A、B、C、D 之 间 的 聚合 、 组 合 关 系 图 。 

















图 5.10 ”聚合 和 组 合 关系 


5.2.8 ”类 的 关系 


在 面向 对 象 关系 中 ， 一 般 有 继承 ( 泛 化 )、 依 赖 、 关 联 、 聚 合 、 组 合 等 关系 ， 实 际 上 都 
是 用 来 描述 现实 某 个 应 用 场景 下 关系 关联 强度 的 。 

继承 关系 和 其 他 关系 有 所 区 别 ， 一 般 继 承 是 静态 的 虽然 Python 支持 对 继承 关系 做 动态 
改变 ,但 是 一 般 使 用 时 不 做 改变 ) ， 描 述 的 是 程序 设计 时 就 定 下 来 的 规则 。 例 如 ， 男 人 是 人 
的 一 种 ， 卡 车 是 汽车 的 一 种 ， 这 种 继承 的 关系 是 设计 之 初 就 定 下 来 的 静态 规则 。 

依赖 、 关 联 、 聚 合 、 复 合 这 些 关 系 是 运行 时 互相 交互 产生 的 。 例 如 ， 在 运行 过 程 中 ， 将 
A 作为 参数 传 给 B 的 方法 (依赖 关系 ) ; 将 A 作为 了 的 类 属性 〈 关 联 ) ; 类 A 只 作为 B 的 
属性 ， 不 单独 存在 也 不 作为 其 他 类 的 属性 组合) 。 按 照 UML 的 标准 ， 一 般 将 依赖 、 关 
联 、 聚 合 、 组 合 这 些 关 系统 称 为 关联 ， 将 依赖 称 为 弱 关 联 、 组 合 称 为 强 关联 。 

之 所 以 在 UML 中 分 出 这 4 种 关系 ， 实 际 上 是 为 了 描述 现实 世界 上 各 种 东西 之 间 关 系 的 
强 弱 ， 比 如 人 心 和 人 就 是 一 个 组 合 ， 人 和 人 心 同时 存在 、 同 时 消亡 ， 是 紧 紧 组 合 在 一 起 的 
又 比如 汽车 轮胎 和 卡车 就 是 一 种 聚合 ， 汽 车 轮胎 是 卡车 的 一 部 分 ， 也 可 以 是 其 他 车 的 一 部 
分 ， 而 汽车 轮胎 和 卡车 也 不 是 同时 存在 、 同 时 消亡 的 。 
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对 于 Python 面向 对 象 来 说 ， 只 需要 注意 各 种 关系 所 对 应 的 语法 展示 就 可 以 了 : 





@ 依赖 





: 在 Python 中 ， 类 人 A 方 法 的 参数 是 另 一 个 类 了 B， 就 叫 A 依赖 于 也 。 


@ 关联、 聚合 、 组 合 关系 : 在 Python 中 ， 如 果 A 的 属性 中 有 类 B 的 实例 ， 那 么 它们 
就 是 关联 关系 ; 如 果 B 的 实例 只 作为 A 的 属性 存在 ， 那 么 A 和 B 就 是 组 合 关系 。 


在 本 章 的 
以 把 数字 打印 


At ,tt 


开始 编程 : 自动 打印 字符 图 案 


综合 应 用 部 分 ， 将 使 用 面向 对 象 的 思想 来 分 析 和 实现 一 个 小 程序 。 这 个 程序 可 
成 符号 * 所 组 成 的 图 案 。 例 如 ， 数 字 1234， 可 以 打印 成 如 下 形式 : 


【本 节 代 码 参 考 : C05numprint.py】 


5.3.1 需求 分 析 和 设计 


这 个 程序 
拟 出 数字 的 样 


大 
和 
和 
和 


立 六 大 大 


六 六 六 大 


首先 使 用 


的 要 求 很 简单 ， 就 是 将 数字 字符 串 的 每 一 个 字符 在 一 个 9X9 的 空间 里 用 * 来 模 
子 〈《 和 计算 器 中 数字 的 样子 一 样 ) 。 例 如 ， 数 字 9 的 数字 图 案 如 下 : 














j 例 图 (UML 中 的 一 个 概念 ) 来 描述 本 程序 的 功能 。UML 为 面向 对 象 开 发 系 








统 的 产品 进行 说 明 、 可 视 化 、 编 制 文档 的 一 种 说 明和 绘图 标准 ， 就 像 盖 一 个 建筑 需要 很 多 设 
计 图 一 样 ， 从 一 开始 建筑 设计 图 、 建 筑 力学 设计 图 到 电气 管道 设计 等 ， 软 件 开发 也 需要 很 多 
种 设计 图 。UML 为 面向 对 象 软件 开发 从 开始 到 开发 结束 ， 一 直到 程序 安装 和 部 署 ， 都 提供 了 
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一 系列 的 方法 和 标准 。 

简单 地 说 ， 用 例 就 是 使 用 程序 每 个 功能 的 场景 ， 用例 图 就 是 绘 出 程序 每 一 个 功能 的 使 用 
场景 ， 一 般 用 来 图 示 化 系统 的 主事 件 流程 ， 以 描述 客户 的 需求 。 图 5.11 画 出 了 数字 图 案 转 换 
的 功能 (将 输入 的 数字 字符 串 打印 成 图 案 ) 。 这 个 功能 实际 上 可 以 分 成 3 部 分 : 数字 字符 串 
拆 分 ， 将 每 个 数字 字符 转换 成 图 案 ， 将 图 案 组 合 起 来 打印 。 


系统 


数字 字符 转换 图 案 字符 事 














接收 字符 囊 打印 成 图 案 


疼 案 字符 刺 的 组 合 打印 











图 5.11 数字 图 案 转 换 程序 的 用 例 图 


有 了 上 面 的 用 例 图 ， 就 可 以 以 此 为 依据 开始 进行 分 析 ， 一 般 在 分 析 的 时 候 都 是 逐个 对 用 
例 图 的 用 例 做 分 析 ， 最 重要 的 是 确认 抽象 成 几 个 类 和 这 些 类 之 间 的 关系 。 图 5.11 是 一 个 总 用 
例 ， 由 3 个 功能 模块 组 成 : 

@ 数字 字符 串 拆 分 。 

@ ”将 每 个 数字 字符 转换 成 图 案 。 

@ ”将 图 案 组 合 起 来 打印 。 

在 这 3 个 功能 中 ， 数 字 字 符 串 拆 分 和 将 图 案 组 合 起 来 打印 较为 简单 ， 而 且 是 面向 使 用 者 
的 ， 所 以 可 以 合并 在 一 起 用 一 个 类 来 处 理 。 该 类 的 主要 作用 是 接受 输入 的 数字 字符 ， 拆 分 成 
一 个 个 字符 ， 然 后 提交 给 其 他 模块 转换 成 图 案 ， 再 将 图 案 组 合成 字符 串 打印 ， 所 以 可 以 抽象 
为 图 5.12。 























图 案 打印 类 


换 的 数字 字符 串 








图 5.12 图 案 打 印 类 
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麻烦 的 是 要 对 每 个 数字 字符 进行 图 案 转换 ， 要 用 * 表 示 9X9 的 空间 ， 模 拟 一 个 数字 的 图 
案 。 首 先 要 模拟 一 个 9X9 的 空间 ， 可 以 使 用 列表 来 模拟 。 在 列表 里 面 放 9 个 小 列表 ， 每 个 列 
表 又 放 9 个 元 素 ， 这 样 可 以 使 用 list[il[j] 来 表示 9X9 空间 的 第 i 行 第 j 个 元 素 。 将 这 个 列表 需 
要 打印 * 的 元 素 都 标志 出 来 以 后 ， 就 可 以 将 这 个 列表 以 它 里 面 的 一 个 小 列表 为 一 行 ， 以 它 的 每 
个 元 素 为 字符 打印 出 来 ， 得 到 整个 图 案 。 图 5.13 说 明了 这 了 列表 的 样子 。 

















CA Ws 窑 
市 
市 
市 

各 入， 沸 大 :天 二 机 

四 

一 二 

三 。 党 

本 [TE] 策 二 二 记 





图 5.13 图案 转换 的 列表 样 例 


有 了 图 5.13 的 列表 以 后 ， 就 可 以 一 一 遍历 列表 的 元 素 得 到 一 个 数字 的 图 案 ， 阿 拉 伯 数字 
有 10 个 ， 每 个 数字 都 需要 一 个 这 样 的 列表 ， 每 个 列表 都 需要 按照 数字 的 样子 去 列表 中 填写 
*， 所 以 这 部 分 代码 可 以 共用 ， 抽 象 成 父 类 ， 每 个 数字 再 设置 一 个 类 从 这 个 类 继承 ， 这 样 每 个 
数字 就 都 有 了 这 个 列表 和 添加 * 的 方法 ， 类 图 如 图 5.14 所 示 。 

| 


添加 + 行列 0 
完成 图 案 列表 () 
AN 









数字 三 


数字 四 
图 5.14 图 案 转 换 的 类 图 


在 图 5.14 中 ， 抽 象 一 个 数字 图 案 总 类 。 该 类 拥有 一 个 图 案 列 表 属性 和 添加 * 到 行列 以 及 
完成 图 案 列表 的 方法 ， 这 样 各 数字 子 类 就 都 可 以 完成 各 自 图 案 列 表 的 填写 工作 了 ， 而 图 案 打 
印 类 只 需要 调用 数字 图 案 总 类 完成 图 案 列表 的 方法 ， 它 们 之 间 是 依赖 关系 ， 所 以 整个 类 图 的 
设计 如 图 5.15 所 示 。 
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数字 图 案 总 类 


| 图 案 列表 















































完成 图 案 列 到 0 比 计 成 图 案 列表 () 














完成 图 宁 列 表 () Ht 充 成 图 案 列 表 0 H+ 充 成 图 案 列 表 0] 





[数字 零 数字 一 [ 数字 二 | 数字 三 | 数字 由 

















图 5.15 程序 整个 类 图 设计 


图 5.15 的 类 设计 中 ， 图 案 打印 类 负责 将 数字 字符 串 分 成 一 个 个 字符 。 比 如 数字 字符 串 
1234， 就 将 它 分 成 1、2、3、4。 如 果 是 1， 就 调用 数字 一 类 去 生成 数字 一 的 对 象 ， 如 果 是 
2， 就 调用 数字 二 类 去 生成 数字 二 的 对 象 ， 然 后 调用 这 些 对 象 的 完成 图 案 列 表 方 法 来 获得 图 案 
列表 。 每 个 不 同 的 数字 都 要 调用 不 同 的 类 来 生成 对 象 。 

在 这 种 设计 中 ， 各 个 数字 对 象 的 细节 没有 被 隐藏 起 来 ， 图 案 打印 类 还 需要 根据 字符 串 的 
不 同 去 调用 不 同 的 类 来 生成 对 象 ， 这 样 别人 还 是 需要 了 解数 字 图 案 的 细节 才能 使 用 。 什 么 叫 
面向 对 象 模型 才 是 好 模型 ， 简 单 地 说 就 是 要 包装 得 好 ， 要 封闭 内 部 细节 。 就 像 电 视 机 一 样 ， 
不 需要 懂 无 线 波 和 显像管 ， 只 要 一 按 下 开关 就 能 看 到 电视 。 如 果 看 电视 ， 需 要 我 们 先 把 电路 
板 和 显像管 接 起 来 ， 再 用 变压器 和 显像管 去 接 ， 这 样 恐 怕 谁 也 受 不 了 。 

面向 对 象 也 是 如 此 ， 追 求 的 是 经 过 包装 后 不 需要 去 关心 细节 就 可 以 使 用 的 类 ， 发 一 个 数 
字 字 符 给 它 ， 就 应 该 直接 提供 一 个 对 应 的 图 案 列表 ， 而 不 是 还 要 关心 它 有 几 个 子 类 。 所 以 可 
以 再 加 一 个 数字 工厂 类 ， 它 负责 根据 不 同 的 数字 字符 使 用 对 应 的 数字 类 去 实例 化 对 象 ， 这 样 
这 个 工厂 类 就 像 一 个 对 象 工厂 ， 图 案 打 印 类 只 需要 把 需要 什么 样 的 对 象 告诉 工厂 类 ， 工 厂 类 
就 会 返回 一 个 对 应 的 对 象 给 它 ， 只 要 简单 地 使 用 这 个 工厂 类 就 好 了 ， 而 不 用 在 去 关心 那些 子 
类 的 细节 。 图 5.16 就 是 加 入 工厂 类 以 后 的 整个 类 图 的 设计 。 


数字 图 案 总 类 
图 案 列表 


添加 * 行 列 () 
完成 图 案 列表 0 
人 
















































完成 图 案 列表 0 完成 图 案 列表 0 完成 图 案 列表 0 | 





图 5.16 改进 以 后 的 类 的 设计 


图 5.16 是 改进 之 后 的 设计 。 工 厂 类 的 作用 就 是 根据 要 求 返回 对 应 的 数字 对 象 ， 就 像 电 视 
机 的 外 壳 和 开关 一 样 ， 它 隐藏 了 内 部 实现 的 细节 ， 现 在 只 需要 简单 地 调用 工厂 类 就 可 以 了 。 
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5.3.2 程序 开发 


图 5.16 完成 了 程序 类 的 设计 ， 下 面 就 要 根据 这 个 设计 开始 编写 代码 了 。 这 个 程序 一 共有 
13 个 类 ， 其 中 10 个 是 数字 类 ， 继 承 于 数字 图 案 总 类 ， 工 厂 类 负责 根据 数字 串 生成 数字 类 对 
象 ， 而 图 案 打 印 类 负责 接受 和 输入， 然后 组 合 输出 的 数字 类 表 进 行 打印 。 

数字 图 案 总 类 是 一 个 父 类 ， 拥 有 一 个 图 案 列表 属性 、 两 个 方法 ， 类 图 如 图 5.17 所 示 。 











数字 图 案 总 类 
图 案 列 表 


+ 添加 * 行 列 () 
+ 完成 图 案 列表 0 





图 5.17 数字 图 案 总 类 
根据 图 5.17 的 类 图 ， 按 照 Python 定义 类 的 方法 ， 可 以 实现 如 下 代码 : 
class numpic(object) : 
der duit (Sens 


self.pic list=[[" ' for i in range(9)] for x in range(9)] 


def setpos(self,i,j): 
self.pic list[i][j]='*"' 


def draw (self): 


return self.pic list 


类 numpic 的 pic_list 用 来 存放 数字 图 案 信息 ，setposO 用 来 把 第 i 行 第 j 个 字符 设置 为 * 字 
符 ， 不 过 虽然 每 个 数字 的 形状 不 一 样 ， 但 是 仍然 有 很 大 的 规律 ， 那 就 是 都 是 由 横行 或 者 竖 行 
组 成 的 ， 数 列 存在 半 列 的 情况 (例如 数字 5) ， 对 于 这 些 共性 的 功能 应 该 放 到 父 类 实现 ， 所 
以 类 numpic 新 设计 的 类 图 应 该 如 图 5.18 所 示 。 


数字 图 案 总 类 


图 案 列 





图 5.18 ”改进 以 后 的 数字 图 案 总 类 
根据 图 5.18 的 新 设计 ， 类 numpic 的 代码 可 以 修改 为 例子 5.6。 
例子 5.6 ”数字 图 案 总 类 修改 


01 class numpic(object) : 





02 def init (self): 

03 self.pic list=[L[E ™ for 1 in range(9)] for x in range(9)l 
04 

05 def rsetpos(selfrLir Ss 
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06 Self .pic Tist[il[l3]="*" 


07 

08 def draw(self): 

09 return self=spic 1ist 

10 

1 def drawline (self,line): 

I Eor step' in range'(9)s 

1 self.setpos (line, step) 

14 

15 def drawrow (self,row,row type): 
16 if row type==0: 

17 for step in range(9) : 

18 self.setpos (step, row) 
卫生 elif row type==1: 

20 for step in range(5): 

之 下 self.setpos (step, row) 
22 else: 

23 for step in range(4,9): 
24 self.setpos (step, row) 


例子 5.6 是 根据 图 5.18 的 设计 而 得 ，drawlineO 用 来 画 横 线 ，drawrowO 用 来 画 竖 线 ， 并 且 
加 上 了 上 半 列 和 下 半 列 的 区 分 ， 有 了 父 类 提供 的 完备 方法 ， 子 类 的 实现 就 很 简单 了 ， 只 需要 
在 父 类 的 基础 上 重 载 draw0 方 法 ， 用 横 线 和 竖 线 画 出 数字 就 可 以 了 。 例 子 5.7 就 是 数字 子 类 
的 实现 。 
例子 5.7 数字 子 类 的 实现 


01 class onepic (numpic) : 


02 def draw(self): 

03 self.drawrow(8,0) 

04 return self.pic list 
05 

06 class zeropic (numpic) : 

07 def draw(self): 

08 self.drawline (0) 

09 self.drawrow (0,0) 

10 self.drawline (8) 

计生 self.drawrow (8,0) 

2 return self.pic list 
3 

14 

15 class twopic (numpic) : 

16 def draw(self): 

17 self.drawline (0) 
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18 
了 和 
20 
al 
22 
之 号 
24 
25 
26 
2 
28 
29 
30 
总 于 
这 加 
世 区 | 
34 
35 
36 
加 涵 
38 
“人, 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
ST 
58 
5 
60 


self.drawrow (8,1) 
self.drawline (4) 
self.drawrow (0,2) 
self.drawline (8) 


Teturn Sels -pic Tist 


Class threepic (numpic) : 
def draw(self): 


self.drawline (0) 
self.drawrow (8,0) 
self.drawline (4) 
self.drawline (8) 


return self.pic list 


class fourpic (numpic): 
def draw(self): 


self.drawrow(0,1) 
self.drawline(4) 
self.drawrow (8,0) 


return self.pic list 


class fivepic (numpic): 
def draw(self): 


self.drawline (0) 
self.drawrow (0,1) 
self.drawline (4) 
self.drawrow (8,2) 
self.drawline(8) 


return self.pic list 


class sixpic (numpic): 
def draw(self): 


self.drawline (0) 
self.drawrow (0,0) 
self.drawline (4) 
self.drawrow (8,2) 
self.drawline (8) 


return self.pic list 


class severnpic (numpic): 


def draw(self): 


self.drawline (0) 


self.drawrow (8,0) 
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61 return Selfvpic 1ist 


62 

63 class eightpic(numpic) : 

64 def draw(self): 

65 self.drawline (0) 

66 self.drawrow (0,0) 

67 self.drawrow (8,0) 

68 self.drawline (4) 

69 self.drawline (8) 

70 return self.pic list 
下 

72 class ninepic (numpic) : 

73 def draw(self): 

74 self.drawline (0) 

5: self.drawrow(0,1) 

76 self.drawrow (8,0) 

了 了 self.drawline(4) 

78 return self.pic list 


例子 5.7 实现 了 10 个 阿拉 伯 数 字 的 数字 子 类 ， 通 过 调用 继承 而 来 的 drawlineO〈 画 横 
线 ) 和 drawrow()〔 画 竖 线 ) 来 把 图 案 信 息 写 到 图 案 列 表 中 。 

顾名思义 ， 工 厂 类 就 是 生产 对 象 的 工厂 ， 负 责 接收 传 进来 的 数字 字符 串 ， 生 成 对 象 的 对 
象 返回 。 
例子 5.8 工厂 类 的 实现 


01 >>> class numfact (object): 








D2 def factory(self,which): 
| 妥 2 if int(which)==0: 

1 return zeropic() 
O05 ses elif int (which)==1: 
Oe return onepic() 
| elif int (which)==2: 
| return twopic() 
| elif int (which)==3: 
Fs return threepic() 
1 elif int(which)==4: 
Te return fourpic() 
Ln elif int (which)==5: 
br return fivepic() 
15 rt elif int (which)==6: 
十 要 人 六 return Sixpic() 
4 i elif int (which)==7: 
8 全 return SeVernpic() 
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L930 ssw elif int (which)==8: 


A i return eightpic() 
pl Re elif int (which)==9: 
2 return ninepic() 


例子 5.8 是 工厂 类 的 实现 。 从 中 可 以 看 到 ， 工 厂 类 实际 上 是 一 个 包装 器 ， 包 装 了 十 个 子 
类 的 使 用 ， 对 外 部 来 说 ， 这 十 个 子 类 的 使 用 都 是 一 样 的， 都 是 调用 factory0 方 法 。 这 就 是 面 
向 对 象 所 指 的 封装 性 ， 这 种 设计 实际 上 是 设计 模式 中 的 Simple Factory 模式 。 




















所 谓 设计 模式 ， 是 指 一 套 被 反复 使 用 、 多 数 人 知晓 的 、 经 过 分 类 编目 的 、 代码 设计 经 验 
的 总 结 ， 简 单 地 说 就 是 “套路 ”。 《设计 模式 一 一 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 
提出 了 23 种 常用 的 设计 模式 ，Simple Factor 模式 是 其 中 一 种 。 





有 了 工厂 类 ， 就 可 以 按照 自己 的 要 求 打 印 图 案 列表 了 。 现 在 图 案 打印 类 只 要 负责 组 合 打 
印 图 案 就 可 以 了 。 图 案 打印 类 的 设计 如 图 5.19 所 示 。 





图 5.19 图 案 打 印 类 设计 
在 图 5.19 中 ， 图 案 打 印 类 有 3 个 操作 方法 ， 不 过 现在 通过 工厂 类 获得 数字 字符 的 图 案 是 
很 简单 的 操作 ， 所 以 提交 图 案 转 换 可 以 和 组 合成 打印 图 案 这 两 个 方法 合并 在 一 起 。 该 类 实现 
的 难点 是 如 何 将 每 个 数字 字符 得 到 的 图 案 列 表 组 合 起 来 ， 代 码 实 现 如 例子 5.9 所 示 。 
例子 5.9 图案 打印 类 实现 


01 class picprint (object): 


02 人 让 

03 self.list total=[[] for x in range(9)] 
04 

05 def getprintstr (selLf, string) : 

06 self.num str=string 

07 

08 def unionpicl(self,prc list): 

09 for step in range(9) : 

10 self.list totallstepl1+=[" yy "]+prc list[step] 
Et 

es def printstr(self): 

13 num fact=numfact() 

14 for eve char in self.num str: 

15 num obj=num fact.factoryl(eve char) 
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16 self. unionpic (num obj.draw()) 


了 print str="" 

18 For Sub list In self iost totals 
19 for every char in sub list: 

20 Print strt=every char 

en print str+="'\n' 

Ee print (print str) 


在 picprint 类 中 ， 第 8~10 行 增加 了 一 个 类 方法 _unionpic〈 只 提供 给 类 内 部 调用 ， 所 以 
前 面 加 了 两 个 下 划 线 ) ， 作 用 是 将 各 个 数字 的 图 案 列表 拼接 起 来 ， 原 理 是 把 图 案 列 表 里 面 每 
一 行 的 列表 累加 到 自己 的 列表 list_total 中 。 图 5.20 说 明了 这 个 累加 的 过 程 。 
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图 5.20 图 案 列 表 累 加 的 过 程 


picprint 类 的 列表 list_total 一 开始 为 空 ， 对 数字 字符 串 的 每 个 字符 使 用 工厂 类 来 得 到 图 案 
列表 以 后 ， 图 案 列表 就 会 不 停 地 加 到 list_total 中 ， 一 直到 数字 字符 串 最 后 一 个 字符 。 

list_total 累加 了 所 有 数字 字符 的 图 案 列 表 以 后 ， 按 顺序 把 每 个 元 素 打 印 出 来 ， 整 个 程序 
功能 就 完成 了 。 





5.3.3 程序 入 口 

在 5.3.2 节 已 经 实现 了 所 有 的 类 ， 接 下 来 编写 程序 入 口 部 分 ， 程 序 就 算 完工 了 。 程 序 入 口 
主要 要 读 取 命 令 行 参 数 ， 并 传送 给 图 案 打 印 类 ， 命令 行 参数 可 以 使 用 第 3 章 所 介绍 的 
optparse 模块 ， 下 面 是 程序 入 口 的 代码 : 


jE name ==" main 3 
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parser = optparse-OptionParser() 

parser:add option("-n","—— 
number",action="store",type="string",dest="num") 

(options, args) = parser.parse args() 

print str=picprint() 

print str.getprintstr (options.num) 


Prin etre peintste(y 


记得 在 程序 开始 处 引入 optparse 模块 : import optparse。 


程序 入 口 的 代码 很 简单 ， 只 是 从 命令 行 参 数 接收 要 打印 图 案 的 字符 串 ， 传 给 print_str0 
(图 案 管理 类 的 对 象 )， 然 后 使 用 printstr0 打 印 。 
在 Windows 的 cmd 窗口 或 Linux 的 shell 窗口 执行 如 下 命令 : 


心 


numprint.py -n 98761 


图 5.21 是 程序 运行 效果 图 。 





IC: Ynunprint .py -n 1 











图 5.21 数字 图 案 打印 程序 效果 


本 章 小 结 


本 章 学 习 了 Python 的 面向 对 象 编程 。 使 用 面向 对 象 模式 来 编写 程序 时 ， 最 重要 的 一 点 就 
是 确认 抽象 出 类 的 模型 和 类 之 间 的 关系 ， 之 后 就 可 以 使 用 Python 的 语法 来 实现 了 。 在 使 用 
Python 定义 类 的 时 候 ， 类 的 每 个 属性 和 方法 都 必须 带 有 self 关键 字 ， 这 一 点 有 别 于 其 他 语 
言 ， 需 要 特别 注意 
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Python 3.7 编程 快速 入 门 


学 习 完 本 章 以 后 ， 需 要 考虑 下 面 几 个 问题 : 

(1) 继承 和 实例 化 的 区 别 。 

(2) 类 和 类 之 间 不 同 的 5 种 关系 ， 在 Python 中 如 何 用 语法 实现 ? 

(3) 在 5.3 节 实 现 了 一 个 将 数字 打印 成 * 拼 成 的 图 案 样式 ， 现 在 需要 增加 对 英文 字符 、 
笑脸 、 心 形 的 支持 ， 该 如 何 实现 ? 


4 


s 4 音 


第 4 章 
< 异常 捕获 和 拙 出 > 


前 面 章节 的 应 用 案例 都 是 假设 在 一 个 完美 的 、 不 会 出 错 的 虚拟 世界 中 编程 ， 在 这 个 奇妙 
的 地 方 不 会 发 生 任何 错误 ， 每 个 程序 库 调 用 都 很 成 功 ， 用 户 从 来 不 会 输入 不 准确 的 数据 ， 例 
如 第 5 章 的 那个 打印 数字 图 案 的 程序 ， 都 是 假定 用 户 输入 的 肯定 是 准确 的 数字 字符 串 ， 那 么 
现在 该 回 到 现实 世界 了 。 

在 现实 世界 上 ， 错 误 时 常 发 生 ， 用 户 不 会 总 是 输入 正确 ， 程 序 库 不 会 总 是 正确 地 调用 ， 
好 的 程序 会 预见 错误 的 发 生 ， 然 后 优雅 地 处 理 这 些 错误 。 实 际 上 ， pop 
单 。 比 如 ， 试 图 去 打开 一 个 不 存在 的 文件 ， 有 时 会 发 生 致命 的 错误 ， 文 件 处 理 模 块 遇 到 这 种 
问题 该 如 何 处 理 ? 传 统 的 做 法 是 使 用 返回 码 。open0 方 法 在 失败 时 返回 一 个 特定 值 ， 然 后 这 
个 值 会 沿 着 调用 它 的 层次 往 回 传 ， 直 到 有 对 象 或 者 函数 处 理 它 。 这 种 做 法 的 问题 是 ， 管 理 这 
些 错误 码 是 一 件 痛 苦 的 事情 ， 如 果 首 先 调 用 read0， 然 后 调用 open0， 最 后 调用 close0 方 法 ， 
每 种 方法 都 会 返回 错误 标识 ， 那 么 当 这 些 方法 都 返回 错误 标识 给 调用 者 时 该 如 何 区 分 这 些 错 

误 码 呢 ? 异常 类 就 是 用 来 解决 这 个 问题 的 。 异 常 类 把 错误 消息 打包 到 一 个 对 象 ， 然 后 该 对 象 
二 自动 才 扫 到 届 用 机， 直到 运行 系统 找到 明确 声明 如 何 处 理 这 些 类 异常 的 位 置 。 
本 章 的 主要 内 容 是 : 





@ 看 异 异 常 信 息 。 

@ ”捕获 异常 信息 。 

@ 多 个 异常 信息 的 处 理 。 
@ 自 定 义 的 异常 信息 。 


常 处 理 


Python 语言 中 使 用 异常 类 来 管理 异常 信息 。 当 发 生 一 个 异常 的 时 候 ， 程 序 会 抛 出 一 个 异 
常 信息 ， 自 动 根据 代码 的 层次 查找 异常 处 理 信息 。 如 果 找 不 到 异常 处 理 的 地 方 ，Python 会 使 
traceback 来 显示 出 现 异常 (Exception〉 时 代码 执行 栈 的 情况 。 


















































6.1.1 Traceback 异常 信息 

当代 码 发 生 异 常 而 没有 指定 异常 处 理 方法 时 ，Traceback 用 来 打印 发 生 异 常 时 代码 执行 栈 
的 情况 。 下 面 先 看 一 个 完整 的 Traceback 显示 的 例子 。 
例子 6.1 Traceback 异常 信息 的 例子 











01 >>> def calcnum(li,divnum): 


020 """ 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 


03 ee new_ list=[divnum/one for one in 1i] 
04 人 return new list 

05 >>> def test() : 

06 员 全 和 calcnum([4,5,6,8,0,2],3) 

07 >>> def test2() : 

08 了 test () 


09 >>> 七 est2 () 


10 Traceback (most recent call last): 


11 File "<stdio>", line 1, in <module> 
a ld File "<stdio>", line 2, in test2 
13 File "<stdio>", line 2, in test 
14 File "<stdio>", line 3, in calcnum 


15 ZeroDivisionError: integer division or modulo by zero 

例子 6.1 是 一 个 函数 calcnum()， 作 用 是 用 一 个 数字 除 以 一 个 列表 的 所 有 元 素 ， 并 将 生成 
的 元 素 放 到 一 个 列表 中 返回 ， 当 列表 中 存在 数字 0 的 时 候 ， 异 常 就 发 生 了 ， 然 后 自动 调用 
Traceback 来 显示 整个 异常 的 发 生 和 调用 的 信息 。 

从 代码 返回 结果 可 以 看 出 ，Python 默认 显示 的 Traceback 由 3 部 分 组 成 : 信息 头 、 出 错 
位 置 和 异常 信息 。 

@ 信息 头 

信息 头 就 是 第 10 行 Traceback (most recent call lasb 信 息 ， 用 来 提醒 使 用 者 这 是 Traceback 



































@@ 出错 位置 

Traceback 显示 了 出 错 的 位 置 ， 显 示 的 顺序 和 异常 信息 对 象 传播 的 方向 是 相反 的 ， 发 生 异 
常 信息 的 位 置 是 最 下 面 的 位 置 ， 从 下 往 上 分 别 是 异常 信息 对 象 的 传播 过 程 。 在 例子 6.1 中 ， 
异常 对 象 发 生 在 calcnum0 函 数 的 第 3 行 ， 而 test0 函 数 调用 了 calcnum0 函 数 ， 所 以 当 异 常 信 
息 对 象 在 calcnum0) 中 没有 找到 异常 处 理 代码 时 ， 就 传 给 上 一 级 test0 函 数 中 调用 calcnum0) 的 
位 置 ， 在 test0 函 数 中 仍然 没有 该 异常 处 理 的 信息 ， 只 好 继续 传 给 调用 test0 函 数 的 test20 函 
数 ， 如 果 一 直 没 有 指定 异常 的 处 理 信息 ， 那 么 异常 会 一 直 传送 到 调用 的 顶级 。 


@@。 异常 信息 






































到 


异常 信息 在 Traceback 信息 的 最 后 一 行 。 异 常 也 有 不 同 的 类 型 ， 本 例 中 的 异常 类 别 为 零 
除 错 误 (ZeroDivisionError) 。 


6.1.2 ”捕获 异常 
捕获 异常 可 以 使 用 try.…except 语法 ， 具 体 如 下 : 


下 














statements 1 
except A: 


statements 2 
(1) 首先 运行 statements 1， 如 果 statements 1 没有 异常 ， 就 如 同 没 有 try...except 语句 一 
样 ， 直 接 运行 之 后 的 代码 。 
(2) 如 果 statements 1 发 生 了 异常 ， 就 把 异常 类 型 和 except 语句 后 的 类 型 相 比 较 ， 结 果 
一 致 就 执行 statements 2。 
例子 6.1 的 异常 可 以 使 用 下 面 的 代码 来 捕获 : 


01 >>> def calcnum(li,divnum): 


D2 """ 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 

Da er 二 二 2 

De new_list= [divnum/one for one in 1i] 
1 -0 except ZeroDivisionError: 

DG a print ("列表 中 含有 0") 

De 

08 >>> calcnum([4,5,6,8,0,2],3) 

09 ”列表 中 含有 0 





在 上 面 的 例子 中 ， 第 4 行 代 码 是 发 生 异常 的 地 方 ， 使 用 try...except 语句 ， 当 第 4 行 发 生 
异常 的 时 候 ， 进 入 第 5 行 ，except 语句 会 把 抛 出 的 异常 对 象 的 类 型 和 except 后 指明 的 类 型 相 
比较 ， 如 果 是 一 致 的 ， 就 执行 except 下 的 代码 块 。 

捕获 异常 并 不 一 定 要 在 异常 发 生 的 地 方 捕获 ， 只 需要 在 异常 对 象 传播 的 路 径 上 捕获 就 可 
以 了 ， 就 像 捕 获 猎物 在 猎物 经 过 的 地 方 布置 陷阱 一 样 。 例 如 ， 例 子 6.1 的 异常 既 可 以 在 异常 
发 生 的 地 方 捕获 ， 也 可 以 在 test0 或 test20 函 数 中 捕获 。 例 子 6.2 在 test20 函 数 里 面 捕 获 
calcnum() 中 的 异常 。 


例子 6.2 Python 捕获 异常 
































>>> def calcnum(1ivdivnum) : 
""" 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 
new list=[divnum/one for one in 1i] 


return new list 


>>> dee test(): 


M3 


calcnum([4,5,6,8,0,2],3) 


>>> def test2()s 
人 
test () 


except ZeroDivisionError: 


print ("在 test2 中 捕获 了 异常 ") 


>>> test2() 


在 test2 中 捕获 了 异常 

在 例子 6.2 中 ， 捕 获 异常 没有 放 在 发 生 异 常 的 代码 旁 ， 而 是 放 在 了 调用 testO 函 数 劳 ， 因 
为 异常 对 象 的 传播 方向 是 calcnum-*test 一 test2 这 样 一 个 过 程 ， 也 就 是 一 个 由 内 而 外 的 过 程 ， 
在 传播 过 程 中 的 任 一 地 方 都 可 以 捕获 异常 。 


6.1.3 ”多重 异常 处 理 
上 面 的 例子 是 处 理 一 种 异常 的 方法 ， 如 果 在 程序 中 存在 多 种 异常 ， 又 该 如 何 处 理 呢 ? 可 
以 使 用 下 面 的 方法 : 
i 
. # statements 1 
except (ExceptionTypel,ExceptionType2) 
. # statements 2 
except (ExceptionType3,ExceptionType4) 
-. # statements 3 
except: 


- # statements 4 


对 于 多 重 异常 处 理 ， 既 可 以 使 用 except 带 括号 的 方法 ， 也 可 以 使 用 多 层次 的 except 分 开 
处 理 ， 如 例子 6.3 所 示 。 


例子 6.3 多 重 异常 处 理 








01 >>> a=[] 

02 >>> a[1] 

03 Traceback (most recent call last): 

04 File "<stdio>", line 1, in <module> 

05 IndexError: list index out of range 

06 >>> b=1/0 

07 Traceback (most recent call last): 

08 File "<astdio>"”, 二 ne 1r in <module> 

09 ZeroDivisionError: integer division or modulo by zero 
10 >>> c={} 


mn 
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Traceback (most recent call last) : 
Eile "<stdio>", line 1l, in <module> 
KeyError: 2 
长 三亚 
a=[] 
print (a[1]) 
b=1/0 
c={} 
except (IndexError,ZeroDivisionError,IndexError): 


print ("有 错误 发 生 了 ") 


有 错误 发 生 了 
Ee 
a=[] 
print (a[l1]) 
b=1/0 
c={} 
except IndexError: 
print ("访问 了 不 存在 的 列表 元 素 ") 
except ZeroDivisionError: 
print ("被 除数 为 0") 
except KeyError: 


print ("访问 了 不 存在 的 列表 key 值 ") 


访问 了 不 存在 的 列表 元 素 


在 例子 6.3 中 ， 第 1~14 的 代码 分 别 是 3 种 不 同 的 异常 情况 : 


IndexError: 列表 元 素 不 存在 异常 。 在 第 1~2 行 中 ，a 是 一 个 空 列表 ， 不 存在 a[1]， 
所 以 抛 出 了 这 个 异常 。 

ZeroDivisionError: 被 除数 为 0 异常。 在 第 6 行 中 ， 用 0 作为 被 除数 。 

KeyError: Key 值 不 存在 异常 。 在 第 10~11 行 中 ，c 是 空 字典 ，key 为 2 的 值 不 存在 。 


对 于 上 面 3 个 异常 ， 第 15~21 行 与 第 24~34 行 采用 了 两 种 不 同 的 办 法 : 代码 15~21 行 采 


的 是 except 后 面 带 括 号 ， 括 号 里 面 含 有 多 个 异常 的 办 法 ; 代码 24~34 行 则 采用 了 多 层次 的 








except 方法 ， 一 层 一 个 异常 ， 层 层 处 理 ， 当 发 生 异常 时 ， 程 序 会 拿 异 常 类 型 和 except 后 面 的 
类 型 一 一 比较 ， 直 到 找到 相同 的 类 型 。 
如 果 except 后 面 什么 类 型 都 没 带 ， 就 表示 发 生 任何 异常 都 按 此 处 理 ， 例 如 : 


> EE 


a=[] 

print (a[1]) 
b=1/0 

Si 
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> 


: EXCept: 


print ("发 生 了 错误 ") 
发 生 了 错误 
在 except 语句 后 面 ， 还 可 以 接 else 和 finally 语句 。 
@@。 。 except 后 接 else 语句 


except 语句 后 接 else 语法 形式 如 下 : 


5 
-statements 1 
except ExceptionTypel: 
- # statements 2 
else: 


. #statements 3 


else 语句 的 作用 在 于 ， 如 果 statements 1 发 生 异 常 ， 那 么 else 下 的 statements 3 则 不 会 运 
只 有 statements 3 没有 异常 ， 才 会 运行 else 下 的 statements 3 。 


@ except 后 接 finally 语句 
expect 语句 后 接 finally 语法 形式 如 下 : 


Try > 
. # statements 1 
except ExceptionTypel: 
. # statements 2 
finally: 


. #statements 3 


finally 语句 和 else 语句 的 差别 在 于 ， 不 管 异常 发 生 不 发 生 ， 都 会 运行 finally 下 的 


statements 3， 如 果 try 下 的 statements 1 发 生 了 异常 ， 而 except 语句 并 没有 指定 该 异常 类 型 ， 


那么 
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程序 会 先 执行 finally 里 的 语句 后 再 将 异常 对 象 向 上 层次 开始 传播 ， 例 如 : 


> Er 
a=1/0 
. except IndexError: 
pass 
finallys 
PEnE (tok 
ok 
Traceback (most recent call last): 
File "<stdio>", line 2, in <module> 


ZeroDivisionError: integer division or modulo by zero 


在 上 面 的 代码 中 ，except 所 指定 的 异常 类 型 并 非 a=1/0 所 发 生 的 异常 类 型 ， 而 是 在 先 运 





行 finally 打印 了 ok 之 后 才 将 异常 信息 对 象 按照 栈 的 调用 顺序 往 上 传 。 
finally 和 else 语句 可 以 合 起 来 使 用 ， 如 例子 6.4 所 示 。 


例子 6.4 finally 和 else 的 综合 应 用 








>>> def divide (x, Y) : 
有 
result =x/y 
except ZeroDivisionError: 
print ("division by zero!") 
else: 
print ("result is %f", result) 
finally: 
print ("executing finally clause") 


>>> divide(2, 1) 

result is 2.0 

executing finally clause 

>>> divide(2, 0) 

division by zero! 

executing finally clause 

>>> cividet 2 mls) 

executing finally clause 

Traceback (most recent call last): 
File "<stdin>"; Tine 7 ‘in? 
File "<stdin>", line 3, in divide 


TypeError: unsupported operand type(s) for /: 'str' and 'str' 

在 例子 6.4 中 ，divide 是 一 个 综合 使 用 了 finally 和 else 的 函数 。 当 调用 divide(2,1) 时 ， 没 
有 发 生 异 常 ， 所 以 else 和 finally 下 的 语句 都 执行 了 一 遍 。 当 调用 divide(2,0) 时 ,发生 了 
ZeroDivisionError 异常 ，else 下 的 语句 不 再 执行 ， 而 finally 下 的 语句 仍然 执行 ， 最 后 调用 
divide("2", "1")， 发 生 了 TypeError 异常 ， 但 是 这 个 异常 并 没有 在 except 中 指定 ， 程 序 仍然 会 
先 执 行 finally 后 的 语句 再 按照 运行 栈 的 顺序 抛 出 异常 。 


6.1.4 异常 的 参数 
捕获 异常 的 语句 不 只 是 可 以 对 发 生 异 常 的 类 型 进行 比较 判断 ， 还 可 以 获得 异常 的 信息 参 
数 ， 语 法 如 下 : 
| 
- # statements 1 


except (ExceptionType) as Argument: 


二 者 Statements 2 


该 用 法 和 前 面 小 节 的 用 法 不 同 的 地 方 是 except 后 的 语句 不 一 样 ，ExceptionType 表示 是 异 




















MA 


常 的 类 型 ， 而 Argument 是 ExceptionType 的 信 ， 


2 TEYS 

国人 a=[] 

Sa print (a[l1]) 

-.. (IndexError)as e: 
四 Print(e) 


list index out of rang 


6.1.5 内 置 异常 类 型 


在 前 面 提 到 了 好 几 种 不 同 的 异常 信 


息 参数 (一般 用 e 代替 ) ， 例 如 : 


息 类 型 ， 实 际 上 Python 内 置 了 几 十 种 不 同 的 异常 类 


型 ， 这 些 异常 类 型 都 是 Python 内 部 定义 的 类 。 例 子 6.5 是 将 Python 的 每 一 个 异常 信息 的 名 字 
和 类 层次 关系 打印 出 来 ，+ 号 表示 该 类 是 上 一 层 类 的 子 类 。 


例子 6.5 ”Python 内 置 异常 类 结构 


BaseException 
+-— SystemExit 
+-— KeyboardIinterrupt 
+-— Exception 
+-- GeneratorExit 
+-— StopIteration 


+-- StandardError 
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+-— ArithmeticError 
+-- FloatingPointError 
+-- OverflowError 
+-- ZeroDivisionError 
+-— AssertionError 
+-— AttributeError 
+-— EnvironmentError 
+-” "TIOErTEOF 
+-~ OSError 
+-— WindowsError (Windows) 
+-— VMSError (VMS) 
+-— EOFError 
+-— ImportError 
== LookKkUpError 
+-— IndexError 
T= EVErEO 
+-— MemoryError 
+-— NameError 
+-— UnboundLocalError 


+-— ReferenceError 


+-— RuntimeError 


+-— SyntaxError 


+-— SystemError 


DeError 


+-— ValueError 





+-— Warning 


+-— DeprecationWarning 


+-— PendingDeprecationWarning 


+-— RuntimeWarning 

+-— SyntaxWarning 

+-— UserWarning 

+-— FutureWarning 
+-— ImportWarning 


+-- UnicodeWarning 


1 +-- NotImplementedError 


| +-— IndentationError 


1 +-— TabError 


1 +-- UnicodeError 
1 +-- UnicodeDecodeError 
1 +-- UnicodeEncodeError 


1 +-- UnicodeTranslateError 


从 例子 6.5 可 以 看 出 ， 所 有 的 异常 都 是 从 BaseException 继承 而 来 的 ， 常 用 的 内 部 异常 都 
继承 于 Exception， 当 自 定义 异常 类 的 时 候 ， 一 般 也 要 求 从 Exception 继承 而 来 。 

















Exception 类 之 下 有 30 多 种 不 同 的 异常 信息 ， 常 见 的 异常 类 型 主要 有 : 


(1) LookupError 下 的 IndexError 和 KeyError 


这 两 个 异常 主要 用 在 访问 不 存在 的 列表 元 素 时 抛 出 IndexErmor 异常 、 访 问 字典 不 存在 的 


Key 值 时 抛 出 KeyError。 
(2) IOError 


当 程 序 尝试 写 一 个 不 存在 的 文件 或 者 其 他 IO 错误 的 时 候 ，Python 会 抛 上 


(3) NameError 





H IOError。 


当 尝 试 访问 一 个 不 存在 的 变量 名 称 时 ， 程 序 会 抛 出 NameError 错误 ， 例 如 : 


>>> print (bb) 


Traceback (most recent call last): 
File "<stdin>", line 17 in <module> 


NameError: name "bb' is not defined 
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(4) TypeError 
个 类 型 使 用 一 个 所 不 支持 的 操作 时 就 会 抛 出 此 类 型 。 例 如 ， 对 字符 串 做 除法 操作 ， 就 
会 抛 出 该 异常 类 型 : 


>>> cc='123'/'246' 




















Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for /: 'str' and 'str' 
SS 


(5) AttributeError 
当 访 问 一 个 对 象 不 存在 的 属性 时 ， 就 会 抛 出 AttributeError 异常: 


>>> class Test: 





a=1 


>>> aa=Test () 

>>> print (aa.a) 

Bn 

>>> print (aa.b) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


AttributeError: Test instance has no attribute 'b' 


在 上 面 的 例子 中 ， 对 象 aa 是 类 Test 的 实例 化 ，aa 有 属性 a、 没 有 属性 b， 所 以 在 打印 
aa.b 的 时 候 就 抛 出 了 AttributeError 异常 。 


(6) ZeroDivisionError 
当 被 除数 是 0 的 时 候 ， 抛 出 ZeroDivisionError 异常 。 
上 面 只 列举 了 一 些 常 用 的 异常 类 型 ， 当 遇 到 不 常用 的 异常 时 可 以 使 用 help 方法 来 获得 异 
常 信 息 的 帮助 。 








6.1.6 ” 抛 出 异常 

在 Python 中 ， 可 以 使 用 raise 语句 来 抛 出 异常 。raise 的 语法 如 下 : 

raise stmt ::= "raise" [expression ["," expression ["," expression]]] 

(1) 语句 raise 后 面 可 以 接 1~3 个 表达 式 。 

Q@ 第 1 个 和 第 2 个 分 别 用 来 表示 类 型 和 值 。 如 果 第 1 个 expression 给 的 是 类 的 实例 化 ， 
那么 它 实 际 上 已 经 包含 了 类 型 和 值 的 信息 ， 所 以 第 2 个 expression 必须 要 填写 成 None。 如 果 
第 1 个 表达 式 给 的 是 类 ， 那 么 可 以 用 第 2 个 expression 来 定义 异常 的 值 。 例 如 ， 将 第 2 个 
expression 填 成 第 1 个 expression 类 的 实例 化 对 象 ， 那 么 使 用 except 语句 捕获 的 就 是 该 对 象 ; 
如 果 第 2 个 expression 给 的 是 一 个 tuple， 那 么 这 个 tuple 会 作为 参数 传 给 第 1 个 expression 类 
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的 初始 化 函数 去 实例 化 异常 对 象 ， 而 tuple 为 空 或 者 expression 为 None 时 初始 化 参数 也 为 


2 


@ 一 般 第 3 个 expression 不 填写 ， 如 果 填 写 ， 就 必须 是 一 个 traceback 对 象 。 
(2) 常用 抛 出 异常 实际 上 有 3 种 常用 方法 。 


GD raise 后 接 实例 化 对 象 。 
一 个 实例 化 对 象 就 可 以 具体 说 明 实 例 化 的 类 型 和 值 ， 所 以 后 面 不 需要 再 接 expression， 








例如 : 


>>> raise NameError ("aa") 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError: aa 


在 上 面 的 例子 中 ，NameError("aa") 得 到 的 是 一 个 NameError 的 实例 化 对 象 ，Traceback 捕 














获 了 这 个 异常 对 象 并 得 到 了 它 的 值 aa。 


@ raise 后 接 异 常 类 名 。 
这 样 抛 出 异常 时 ， 只 能 说 明 是 什么 异常 ， 实 例 化 对 象 的 时 候 会 使 用 空 参数 去 创建 实例 化 


对 象 ， 例 如 : 


上 等 


>>> raise NameError 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError 


在 上 面 的 例子 中 ， 只 指定 了 类 型 ，Python 会 使 用 空 参数 去 实例 化 对 象 。 上 面 的 代码 实际 
同 于 下 面 的 代码 : 


>>> raise NameError() 





Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError 


@ raise 后 接 异 常 类 和 类 的 初始 化 参数 。 
这 样 抛 出 的 异常 对 象 实际 上 是 用 指定 初始 化 参数 来 实例 化 的 对 象 ， 例 如 : 
>>> raise NameError ("aa") 
Traceback (most recent call last): 
File "<pyshell#62>", line 1, in <module> 


raise NameError("aa") 


NameError: aa 
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6.1.7 自 定 义 异 常 类 型 
虽然 语法 上 没有 强制 要 求 自 定义 的 类 型 要 继承 于 Python 内 置 的 Exception， 但 是 为 了 程 
序 的 健壮 性 ， 一 般 都 会 声明 自己 定义 的 异常 从 Exception 继承 而 来 。 例 如 : 


>>> class MyError (Exception): 





‘def nit (selfr value)s 
self.value = value 
‘def str (self)s 


return repr(self.value) 


上 面 定义 了 MyError 类 (从 Exception 继承 而 来 )》， 重 载 了 初始 化 函数 _init _， 将 初始 
化 函数 的 参数 传 给 类 属性 value。Exception 初始 化 函数 是 将 参数 传 给 args 属性 的 。MyError 
可 以 使 用 下 面 的 代码 来 抛 出 该 异常 ， 这 是 直接 用 MyError 的 实例 化 对 象 的 方法 : 
>> Cr 
raise MyError (2*2) 
except (MyError) as e: 


print('My exception occurred, value:', e.value) 
自 定义 异常 类 的 时 候 ， 一 般 功能 只 提供 了 一 些 属性 来 保存 异常 信息 ， 以 保证 异常 类 型 的 
代码 简洁 单一 。 对 于 一 个 规模 较 大 的 程序 ， 为 了 保证 程序 的 稳健 性 和 耐劳 性 ， 要 尽 可 能 考虑 
到 程序 各 种 各 样 的 异常 ， 为 了 处 理 这 些 不 同 的 异常 ， 可 以 参考 Python 内 置 的 异常 类 型 结构 。 
例如 ， 定 义 一 个 总 异常 类 ， 然 后 具体 的 每 种 异常 继承 自 该 类 。 一 个 计算 机 程序 将 内 部 错误 分 
成 用 户 输入 错误 和 内 部 逻辑 错误 两 部 分 ， 就 可 以 定义 一 个 总 的 异常 基 类 ， 让 输入 错 i eee 
逻辑 错误 作为 子 类 继承 自 该 基 类 。 例 子 6.6 是 该 结构 实现 的 例子 。 


例子 6.6 ”构造 程序 异常 类 型 处 理 结构 


>>> class BusiError (Exception): 
""" 程 序 异常 错误 信息 总 类 """ 


pass 





>>> class UserIinputError (BusiError): 
a """ 用 户 输入 信息 错误 ，id 是 窗口 或 者 输入 框 的 编号 ，value 是 用 户 输入 的 信息 ，reason 
是 原因 """ 
def _ init (self,id,value,reason): 
self.id=id 
self.value=value 


self.reason=reason 


>>> class InnerdealError (BusiError): 
本 lle class_type 是 发 生 模 块 类 型 ，class_name 是 发 生 模块 的 名 字 ， 
line 是 模块 的 行 数 ww 
def _ init (self,class type,class name,line): 


self.class type=class type 
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self.class name=class name 


self.line=line 


例子 6.6 实现 了 一 个 基 类 和 两 个 子 类 。UserInputError 是 BusiError 的 子 类 ， 用 来 记录 用 
户 输 入 信息 错误 时 的 窗口 或 者 输入 框 编号 ， 以 及 输入 的 信息 、 错 误 产 生 的 原因 。 
InnerdealError 用 来 记录 内 部 处 理 的 异常 错误 信息 ， 包 括 异 常 发 生 的 模块 类 型 、 名 字 和 发 生 的 
行 数 等 。 基 类 看 起 来 并 没有 多 少 功能 代码 ， 不 过 如 果 系 统 发 生 了 异常 ， 但 是 又 不 清楚 异常 具 
体 是 什么 类 型 ， 那 么 基 类 的 作用 就 体现 出 来 了 。 下 面 的 代码 就 体现 了 基 类 的 作用 : 
























































statement1 


. except (BusiError) as obj e: 


IE type(obj e). name =="UserInputError™": 
statement2 

elif type(obj e). name =="InnerdealError": 
statement3 














在 上 面 的 代码 中 ， 当 不 知道 statementl 产生 的 具体 异常 时 ， 可 以 使 用 BusiError 基 类 来 捕 
获 异 常 对 象 ， 根 据 对 象 类 型 的 名 字 〔 使 用 type 来 获得 对 象 的 类 型 ， 使 用 类 的 _name 来 获得 
类 型 的 名 字 ) 就 可 以 知道 具体 是 什么 异常 了 ， 这 也 就 是 面向 对 象 多 态 性 的 好 处 。 














口 ,和 ”开始 编程 : 计算 机 猜 数 


6.1 节 讨 论 了 在 Python 中 如 何 处 理 异常 ， 本 节 将 通过 开发 一 个 计算 机 的 猜 数 程序 实践 一 
下 Python 异常 处 理 的 应 用 。 
【本 节 代码 参考 :CO6G\bbc.py】 


6.2.1 计算 机 猜 数 程序 

所 谓 计 算 机 猜 数 程序 ， 就 是 先 确定 一 个 四 位 数 〈 四 个 数字 不 能 为 重复 数字 和 0) ， 再 让 
计算 机 猜 这 个 四 位 数 是 多 少 。 每 次 计算 机 打出 一 个 四 位 数 后 ， 首 先 确定 这 四 位 数字 中 有 几 位 
猜 对 了 ， 并 且 在 对 的 数字 中 又 有 几 位 位 置 也 是 对 的 ， 将 结果 输入 到 计算 机 中 ， 给 计算 机 以 提 
示 ， 让 计算 机 再 猜 ， 直 到 计算 机 猜 出 四 位 数 是 多 少 为 止 。 整 个 猜 数 过 程 如 图 6.1 所 示 。 
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图 6.1 计算 机 猜 数 程序 示例 图 


6.2.2 需求 分 析 

解决 这 类 问题 时 ， 计 算 机 的 思考 过 程 不 可 能 像 人 一 样 具 有 完备 的 推理 能 力 ， 关 键 在 于 要 
将 推理 和 判断 的 过 程 变 成 一 种 机 械 的 过 程 ， 找 出 相应 的 规则 ， 和 否则 计算 机 难以 完成 推理 工 
作 。 

基于 对 问题 的 分 析 和 理解 ， 将 问题 简化 ， 首 先 每 一 次 提示 信息 都 包括 两 方面 的 信息 : 数 
字 组 成 信息 和 数字 位 置信 息 。 计 算 机 每 次 试探 不 过 是 根据 提示 信息 来 缩小 可 能 的 组 合 ， 所 以 
计算 机 猜 数 的 步骤 可 以 总 结 如 下 : 

(1) 按照 要 求 先 创建 一 个 符合 要 求 的 数字 列表 〈possibleList) ， 实 际 上 符合 四 个 数字 不 
能 为 重复 数字 和 0 的 数字 并 不 多 ， 总 共 才 4536 个 。 

(2) 计算 机 从 符合 要 求 的 数字 列表 (possibleList ) 中 获取 一 个 随机 4 位 数 
randomNum。 输 出 randomNum， 让 用 户 把 预 设 数 与 randomNum 做 比较 ， 得 到 randomNum 有 
多 少 个 数字 与 预 设 数 相同 (hasNum ) 、 有 多 少 个 数字 不 但 相同 而 且 位 置 也 正确 

(posNum) 。 

(3) 将 可 能 数字 列表 〈possibleList) 中 所 有 数字 取出 来 与 randomNum 相 比 较 ， 保 留 与 
randomNum 有 相同 数字 个 数 (hasNum ) 的 数字 ， 去 除 不 符合 条 件 的 数字 ， 第 一 次 缩小 了 
possibleList 的 范围 。 此 时 用 户 预 设 的 数字 必定 在 新 的 possibleList 列表 中 。 

(4) 看 用 户 输入 的 与 预 设 数 有 相同 位 置 的 个 数 (posNum) ， 把 新 的 possibleList 列表 中 
所 有 的 数字 都 取出 来 与 randomNum 相 比较 。 将 位 置 相同 个 数 与 posNum 相同 的 数字 保存 到 新 
的 possibleList 中 。 第 二 次 缩小 了 possibleList 的 范围 。 

(5) 重复 步骤 (2) ~ (4) ， 直 到 possibleList 的 长 度 为 1， 或 者 随机 数 randomNum 正 
好 选取 到 预 设 数 为 止 。 

图 6.2 就 是 根据 上 面 的 算法 来 绘制 的 流程 图 。 从 中 可 以 看 出 ， 该 程序 实现 的 难点 在 于 如 
何 根据 用 户 输入 的 提示 信息 来 得 到 一 个 所 有 可 能 性 的 集合 ， 实 际 上 计算 机 要 做 的 就 是 根据 所 
给 的 提示 信息 缩小 可 能 性 的 组 合 ， 一 直 缩小 到 只 有 一 个 的 时 候 找 到 正确 的 数字 。 
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选择 一 个 随机 数 


| 
































根据 提示 信息 获 























得 可 能 的 序列 



































从 可 能 性 集合 中 | 
获得 一 个 数 













































































重复 上 面 步 又 
































图 6.2 猜 数 程序 流程 图 


6.2.3 ”算法 分 析 
从 需求 分 析 上 可 以 看 出 ， 如 何 根据 用 户 给 出 的 提示 信息 获得 一 个 所 有 可 能 性 的 集合 是 实 


现 这 个 程序 的 
例如 ， 计 


难点 。 
算 机 给 出 一 个 数字 1234， 用 户 给 出 提示 2 和 1， 表 示 有 2 个 数字 在 1234 中 ， 但 


是 只 有 一 个 数字 的 位 置 是 正确 的 。 在 这 种 情况 下 ， 计 算 机 如 何 去 获 得 所 有 满足 这 个 条 件 的 集 


合 呢 ? 

















户 给 的 提示 信息 实际 上 包括 以 下 两 部 分 : 


(1) 有 2 个 数字 是 在 1234 中 。 这 说 明 用 户 的 数字 是 1234 中 任意 2 个 数字 的 组 合 ， 但 是 
不 包括 1234 这 四 个 数字 的 组 合 ， 有 并 且 只 有 2 个 数字 在 1234 中 。 
(2) 只 有 1 个 数字 位 置 正确 。 这 说 明 其 他 3 个 数值 位 置 都 不 正确 ， 所 以 需要 从 上 面 的 组 


合 中 再 缩小 范 
对 于 上 面 


围 ， 只 保留 有 一 个 并 且 只 有 一 个 数字 的 位 置信 息 和 1234 是 相同 的 。 
的 两 个 部 分 ， 下 面 分 开 讨 论 如 何 实现 。 
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1. 根据 用 户 提供 的 组 成 信息 找 出 所 有 可 能 
计算 机 给 出 一 个 随机 的 四 位 数 randomNum (randomNum 必须 在 符合 要 求 的 4536 个 数字 


列表 possibleList 时 





选择 ) 。possibleList 这 个 列表 比较 容易 得 到 ， 从 1000 到 9999 中 去 除 掉 所 


有 至 少 有 2 个 数字 相同 的 数 〈 比 如 1123 有 2 个 数字 相同 ， 就 不 符合 要 求 ，9999 有 4 个 数字 
相同 ， 同 样 不 符合 要 求 ) 。 使 用 set 很 容易 得 到 possibleList。 

假设 计算 机 从 possibleList 中 选 出 的 随机 数 (randomNum) 为 1234， 用 户 输入 的 提示 为 2 
和 1 (其 中 ，2 是 相同 的 数字 提示 hasNum，1 是 相同 的 位 置 提示 posNum) ， 说 明 1234 中 有 
2 个 数字 与 用 户 随机 数 是 相同 的 ， 至 于 是 哪 2 个 数 则 不 确定 ， 其 中 还 有 1 个 位 置 也 是 正确 


的 。 



































通过 第 一 次 的 相同 数字 过 滤 缩 小 possibleList。 先 遍历 possibleList， 将 possibleList 中 所 
有 的 数字 与 选 出 的 随机 数 randomNum (这 里 假设 为 1234) 相 比 较 ; 再 将 与 之 有 2 个 相同 数 
字 的 数 取 出 来 存 入 新 的 列表 (subList〉 中 备用。 遍历 完成 后 将 新 的 列表 重新 命名 为 
possibleList， 缩 小 嫌疑 数字 的 列表 。 代 码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 


>>> def reduceByHasNum(possibleList, hasNum, randomNum): 


subList = [] 
for possibleNum in possibleList: 
randomNumList = listl(str(randomNum)) 
possibleNumList = list(str(possibleNum)) 
if len(set (randomNumList + possibleNumList)) == 8-hasNum: 
subList.append (possibleNum) 
possibleList = subList[:] 


return possibleList 


2. 根据 用 户 提供 的 位 置信 息 找 出 所 有 可 能 性 


根据 相同 位 置 数 (posNum) 来 找 出 所 有 嫌疑 数字 ， 将 其 存 入 列表 。 遍 历 缩小 后 新 的 
possibleList， 将 所 有 的 数字 与 之 前 选 出 的 随机 数 randomNum 相 比 较 。 相 同位 置 数 等 于 
posNum 的 取出 来 ， 存 入 新 的 列表 (subList〉 中 备用 。 人 遍历 完 成 后 将 新 的 列表 重新 命名 为 
possibleList， 缩 小 嫌疑 数字 的 列表 。 代 码 如 下 : 


126 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 





>>> def reduceByLocation (possibleList, posNum, randomNum): 
subList = [] 
for possibleNum in possibleList: 
randomNumList = list(str(randomNum) ) 
possibleNumList = list(str(possibleNum)) 
samePostion = 0 
for i in range(4): 
if randomNumList[i] == possibleNumList[il]: 
samePostion += 1 


if samePostion == posNum: 


1 Ke subList.append (possibleNum) 
2 es possibleList = subList[:] 


be; je return possibleList 
关键 是 第 7~9 行 的 代码 ， 用 来 比较 数字 和 位 置 是 否 一 致 ， 将 数字 的 4 个 数字 一 位 一 位 地 
进行 比较 ， 如 果 有 一 致 的 就 累加 一 。 最 后 在 第 10 行将 得 到 的 数字 和 位 置 都 正确 的 数目 和 用 户 
提示 的 数目 进行 比较 ， 如 果 一 致 ， 说 明 比 较 的 这 个 数字 是 嫌疑 数字 之 一 。 




















6.2.4 ”编程 实现 

前 面 分 析 了 需求 和 算法 ， 本 小 节 将 着 手 实现 。 该 应 用 主要 是 人 和 计算 机 交互 ， 实 际 就 是 
让 计算 机 根据 人 的 提示 每 次 打印 出 一 个 新 的 数 ， 然 后 人 继续 给 新 的 提示 ， 直 到 计算 机 确认 到 
数字 为 止 。 这 样 可 以 把 这 个 计算 机 抽象 成 一 个 类 TComputer， 作 用 就 是 接受 用 户 的 提示 ， 然 
后 根据 提示 打印 数 。 该 类 的 设计 图 如 图 6.3 所 示 。 





Ht 接 受用 户 输 入 () 
打印 猜 的 新 数 0 





图 6.3 Tcompnuter 的 类 设计 
实际 上 计算 机 每 次 打印 新 猜 的 数 都 是 要 根据 用 户 提示 信息 进行 一 番 运 算 的 ， 要 根据 用 户 
提供 的 数字 组 成 和 位 置信 息 来 缩小 可 能 性 的 组 合 ， 所 以 该 类 的 设计 应 该 加 上 6.2.3 小 节 的 两 个 
算法 ， 并 且 要 添加 一 个 列表 属性 ， 用 来 存放 可 能 性 的 集合 。 图 6.4 是 增加 了 属性 和 方法 以 后 
的 类 设计 图 。 





可 能 性 集合 列表 





图 6.4 ”Tcomputer 的 改进 设计 


根据 上 面 Tcomputer 的 设计 ， 可 以 使 用 Python 实现 该 功能 。 例 子 6.7 就 是 实现 了 
Tcomputer 的 代码 。 


例子 6.7 Tcomputer 的 实现 








import random 
class TComputer (object): 
der dni (seLE}s 
Self.pbossiblebist = [0] 
for num in range(1000, 10000): 
if len(set(list(str(num)))) == 4: 


# 先 用 1ist (str (num) ) 将 数字 转换 成 一 个 列表 ， 然 后 用 set 去 掉 重复 的 数字 。 
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self.possibleList.append (num) 
self.randomNum 


random.choice(self.possibleList) 


# 随 机 从 列表 中 选 一 个 数 作为 比较 数字 


def reduceByYLocation (selLf) : 
"根据 用 户 输入 的 位 置 正 确 的 数 self.posNum， 把 不 符合 条 件 的 数字 从 posibleList 中 
排除 出 去 ，"'' 
subList = [] 


for possibleNum in self.possibleList: 


randomNumList = list(str(self.randomNum)) 
possibleNumList = list(str(possibleNum)) 
samePostion = 0 


for i in range(4) : 


if randomNumList[i] == possibleNumList[il]: 
samePostion += 1 


if samePostion == self.posNum: 


subList.append (possibleNum) 


self.possibleList = subList[:] 


def reduceByHasNum(self): 


“根据 用 户 输入 猜测 正确 的 数字 的 个 数 self .hasNum， 把 不 符合 条 件 的 数字 从 
posibleList 中 排除 出 去 ! 5 


subList = [] 


for possibleNum in self.possibleList: 
randomNumList = 


= list(str(self.randomNum)) 
possibleNumList = list(str(possibleNum)) 
if len(set(randomNumList) & set(possibleNumList)) == self.hasNum: 
subList.append (possibleNum) 


self.possibleList = subList[:] 


def getUserInput (self, hasNum, PosNum) : 
self.hasNum = hasNum 
self.posNum = posNum 


self.reduceList() 


def reduceList (self): 
self.reduceByHasNum() 


self.reduceByLocation() 


self.randomNum = random.choice (self.possibleList) 





例子 6.7 实现 了 Tcomputer 的 代 





， 上 面 实现 的 reduceByLocation0 和 reduceByHasNumO) 
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实际 上 是 6.2.3 小 节 中 算法 分 析 的 两 个 函数 ， 新 添加 的 内 容 主要 是 初始 化 方法 和 
getUserInputO、reduceList0 方 法 。 


(1) 初始 化 方法 (构造 函数 init 0) 
初始 化 方法 主要 是 生成 一 个 所 有 的 有 可 能 的 数 的 列表 possibleList。 这 个 列表 首先 排除 了 
位 数 上 有 相同 数 的 四 位 数 ， 并 且 给 出 了 初始 的 随机 数 randomNum。 


(2) getUserInput() 方 法 
这 个 方法 的 作用 比较 简单 ， 只 是 从 用 户 那 里 接受 提示 信息 。 


(3) reduceList0 方 法 
这 是 Tcomputer 的 关键 方法 ， 作 用 是 根据 用 户 的 提示 信息 调用 reduceByhasNum0 〇 函数 和 
reduceByLocation0) 函 数 ， 以 缩小 嫌疑 数字 列表 possibleList， 然 后 返回 一 个 新 的 randomNum， 
于 下 一 次 的 比较 。 
在 实现 了 Tcomputer 以 后 ， 下 面 只 需要 写 下 和 用 户 的 交互 就 可 以 了 : 




















01 if _name =="'_ main _': 

02 computer=TComputer () 

03 print ("计算 机 :准备 猜 数 ?") 

04 while 1: 

05 value=input ("人 :") 

06 if value == "yes": 

07 print ("计算 机 : bingo") 

08 break 

09 LS 

10 hasNum = int(str(value).split() [0]) 
ph posNum = int(str(value) .split() [1]) 
12 computer.getUserInput (hasNum, posNum) 








上 面 是 和 用 户 进 行 交互 的 代码 ， 第 2 行 实例 化 一 个 Tecomputer 对 象 ， 第 5~12 行 是 该 对 象 
和 用 户 之 间 交 互 的 过 程 。input0 是 Python 内 置 函 数 ， 用 来 接收 用 户 输入 的 信息 。computer 对 
象 使 用 getUserInputO 从 用 户 那里 获得 用 户 输入 的 信息 。 


















































6.2.5 ”异常 处 理 


是 不 是 完成 了 6.2.4 小 节 的 步骤 ， 本 应 用 就 可 以 宣布 结束 了 ? 下 面 使 用 程序 试验 一 下 ， 截 
屏 如 图 6.5 所 示 。 
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图 6.5 试验 猜 数 程序 
出 错 了 ! 看 来 程序 开发 到 此 没有 结束 ， 从 图 6.5 可 以 看 出 ， 当 第 1 次 试验 时 ， 完 全 正确 








的 输入 是 没有 问题 的 ， 计 算 机 准确 地 猜 出 了 数字 ; 当 第 2 次 试验 时 ， 输 入 的 提示 信息 不 正 
确 ， 程 序 就 报错 退出 了 。 这 是 因为 上 面 在 分 析 设 计 和 编程 时 完全 没有 考虑 到 异常 情况 ， 用 户 
不 是 任何 时 候 都 会 按照 预想 的 那样 := 的， 他 有 可 能 输入 错误 的 信息 ， 也 有 可 能 把 字母 当 数 
字 输 入 ， 还 有 可 能 输入 错误 的 提示 信息 ， 遇 到 这 种 情况 该 如 何 处 理 呢 ? 
这 就 是 本 章 讨论 的 异常 处 理 的 作用 所 在 了 。 有 了 异常 处 理 ， 程 序 就 会 稳健 耐用 ， 不 会 动 
不 动 就 出 错 退出 了 。 
本 程序 主要 有 下 面 两 种 异常 信息 : 
@ 用户 输入 格式 错误 。 在 本 应 用 中 ， 用 户 应 该 输入 yes 或 者 是 两 个 数字 ， 输 入 其 他 的 
格式 时 计算 机 应 该 抛 出 异常 来 提醒 用 户 。 
@@ 用 户 输入 数据 错误 .除了 用 户 输入 的 格式 错误 外 ， 用 户 给 的 提示 信息 本 身 可 能 是 错 
误 的 ， 也 可 能 前 后 矛盾 。 在 这 种 情况 下 ， 根 本 无 法 猜 出 正确 的 解 ， 所 以 在 处 理 异 常 
的 时 候 ， 也 需要 将 这 个 异常 考虑 在 内 。 








6.2.6 异常 类 定义 

主要 是 处 理 两 种 不 同 的 异常 信息 : 用 户 格 式 错误 和 用 户 数 据 错误 。 定 义 本 程序 的 异常 处 
理 结构 时 ， 可 以 按照 6.1.7 小 节 里 提 到 的 方法 来 编写 自 定义 类 一 一 定义 一 个 异常 的 总 类 ， 用 户 
格式 错误 和 用 户 数 据 错误 分 别 继 承 于 总 类 。 总 类 的 定义 很 简单 ， 例 如 : 








>>> class BusiError (Exception): 
" "程序 异常 错误 信息 总 类 """ 
pass 
(1) 用 户 格式 错误 
在 用 户 输入 格式 不 正确 的 时 候 抛 出 异常 ， 以 便 用 户 看 到 异常 提示 的 信息 就 知道 是 输入 的 
问题 。 它 的 实现 代码 如 下 
>>> class UserInputError (BusiError): 
"wm 用 户 格式 错误 : errInput 记录 错误 信息 ，outInfo 记录 提示 信息 """ 
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def” Init {selfy err nputy Out info)s 
self.errIinput= errInput 


self.outIinfo=outInfo 


户 输入 格式 异常 时 ， 返 回 的 异常 信息 要 包括 用 户 输入 的 错误 格式 信息 和 正确 的 输入 格 
式 说 明 ， 所 以 在 UserInputError (用 户 输入 格式 异常 ) 中 定义 了 两 个 属性 err input 和 
out_info， 分 别 用 来 记录 错误 格式 信息 和 正确 的 输入 格式 说 明 。 
(2) 用 户 数据 错误 

计算 机 程序 按照 用 户 提示 的 数据 找 不 到 任何 一 个 可 能 的 数字 的 时 候 ， 才 会 抛 出 用 户 数据 
错误 异常 。 因 为 本 应 用 的 程序 是 每 次 都 根据 提示 数据 来 缩小 可 能 性 的 集合 (也 就 是 列表 
possible list 的 数字 越 来 越 少 的 过 程 ) ， 现 在 的 程序 设计 并 没有 possible_list 副本 ， 每 次 根据 
用 户 提示 的 数据 对 possible_list 做 的 操作 都 不 能 恢复 ， 所 以 该 异常 类 只 是 通知 程序 输入 数据 
出 错 ， 本 局 游戏 要 从 头 开始 了 ， 不 需要 增加 属性 ， 直 接 继承 父 类 就 可 以 了 ， 例 如 : 

>>> class UserDataError (BusiError): 


"…"" 程 序 异常 错误 信息 总 类 """ 


pass 


6.2.7” 抛 出 和 捕获 异常 

定义 了 异常 类 ， 下 面 的 问题 就 是 在 什么 地 方 抛 出 和 捕获 异常 了 。 用 户 输入 格式 异常 和 用 
户 数据 异常 都 是 和 用 户 输入 有 关 的 ， 所 以 可 以 在 和 用 户 进行 交互 的 地 方 增加 异常 处 理 的 机 
制 ， 抛 出 异常 并 做 相应 的 处 理 。 例 子 6.8 是 增加 了 出 错 处 理 之 后 的 用 户 交 互 代码 。 


例子 6.8 用 户 交 互 代码 的 异常 处 理 



























































01 if _name ==' main ': 

02 computer=TComputer () 

03 print (" 计 算 机 :准备 猜 数 ? ") 

04 We 

05 print ("计算 机 : %s2" %computer .randomNum) 
06 value = input ("人 :") 

07 if value == "yes": 

08 print ("计算 机 : bingo") 

09 break 

10 elif len(value.split()) > 2: 

刘 raise UserInputError (value，" 应 该 输入 yes 或 者 是 2 个 数字 ") 
12 else: 

U3 hasNum = int(value.split() [0]) 

14 posNum = int(value.split() [1]) 

hi computer.getUserInput (hasNum, posNum) 


例子 6.8 和 原 有 代码 的 不 同 之 处 是 在 第 8~9 行 对 用 户 输入 的 value 做 格式 检查 ， 如 果 格 式 
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不 正确 ， 就 抛 出 UserInputError 异常 。 

此 外 ， 用 户 在 输入 两 个 数 时 应 该 注意 ， 第 一 个 数 是 与 随机 数 相 同 的 数字 ， 第 二 个 数 是 相 
同 的 数字 并 且 还 有 相同 的 位 置 。 也 就 是 说 ， 第 一 个 数字 必定 比 第 二 个 数字 大 ， 而 且 ， 这 两 个 
数 都 必须 小 于 4。 所 以 这 里 还 需要 增加 对 输入 数 大 小 的 判断 。 如 果 用 户 输入 的 数 有 误 ， 后 面 
必然 得 不 到 正确 的 结果 。 例 子 6.9 是 对 输入 数字 异常 的 处 理 。 


例子 6.9 输入 数字 异常 处 理 














01 if name =="' main ": 

02 computer=TComputer () 

03 print ("计算 机 :准备 猜 数 ?") 

04 while 1: 

05 print ("计算 机 : %s2" %computer .randomNum) 

06 Value = input ("人 :") 

07 if value == "yes": 

08 print ("计算 机 : bingo") 

09 break 

10 elif len(value.split()) > 2: 

11 raise UserInputError (value， "应 该 输入 OK 或 者 是 2 个 数字 ") 

Le elif (not value.split() [0] .isdigit()) | (not 
value.split() [1].isdigit()) : 

了 raise UserInputError (value，" 输 入 的 必须 是 2 个 数字 ") 

14 elif (int(value.split() [0]) <= int(value.split() [1])) & 
int (value.split() [0]) > 4: 

raise UserInputError (value, "输入 的 数字 必须 在 [0, 4] 之 间 ， 并 且 第 一 
个 数 要 大 于 第 二 个 数 ") 

证 各 else: 

18 hasNum = int(value.split() [0]) 

18 posNum = int(value.split() [1]) 

1 computer.getUserInput (hasNum, posNum) 


例子 6.9 增加 异常 处 理 的 地 方 是 在 第 11、13 和 15 行 ， 通 过 对 输入 数值 的 判断 ， 将 不 符 
合 要 求 的 输入 都 抛 出 异常 ， 增 强 程序 的 健壮 性 ， 保 证 用 户 的 输入 是 有 效 的 。 


口 .3 小 结 





本 章 讨论 了 Python 的 异常 处 理 。 对 于 每 个 程序 来 说 ， 异 常 处 理 是 必 不 可 少 的 ， 因 为 稳健 
性 是 一 个 程序 合格 的 重要 指标 之 一 。 一 个 程序 应 该 能 够 在 各 种 异常 情况 下 正常 完善 地 运行 ， 
比如 在 用 户 输入 错误 的 数据 、 链 接 的 程序 库 有 问题 或 者 外 部 的 文件 、 网 络 、 数 据 库 等 异常 情 
况 下 都 能 正确 地 运行 ， 这 样 才能 算 稳健 可 靠 。 

Python 提供 了 一 套 简洁 有 效 的 异常 抛 出 和 捕获 机 制 。 读 者 在 学 习 本 章 的 时 候 ， 要 多 留意 
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第 6 章 异常 捕获 和 抛 出 


一 下 try、except 和 raise 的 用 法 。 在 本 章 的 综合 应 用 中 ， 列 举 了 一 个 颇 为 著名 的 计算 机 猜 数 
的 例子 ， 并 演示 了 如 何在 该 例子 上 应 用 异常 处 理 ， 以 应 付 用 户 输入 数据 错误 等 异常 情况 。 

这 里 的 计算 机 猜 数 是 让 计算 机 来 猜 人 提供 的 数字 。 读 者 也 可 以 尝试 编写 一 个 让 人 来 猜 计 
算 机 随机 获得 数字 的 程序 ， 考 虑 一 下 该 如 何 实 现 ， 又 会 有 哪些 异常 需要 处 理 呢 ? 
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在 使 用 Python 开发 程序 的 时 候 ， 如 果 是 比较 复杂 的 功能 ， 通 常 需要 把 功能 分 成 几 个 部 
分 ， 这 样 程 序 才能 有 良好 的 结构 。 那 么 如 何 去 组 织 一 个 有 很 多 功能 的 复杂 的 Python 代码 呢 ? 
这 就 要 使 用 Python 的 模块 和 包 了 。 

本 章 的 主要 内 容 是 : 


@ ”模块 的 导入 。 

@ ”模块 的 编辑 。 

@ 包 的 导入 。 

@ 命名 空间 的 使 用 。 


了 .1 模块 


顾名思义 ， 模 块 就 是 一 块 一 块 的 代码 。 几 何 图 形 可 以 分 成 多 块 ， 代 码 也 可 以 分 成 多 块 。 
各 种 程序 设计 语言 基本 都 包含 了 模块 的 概念 ， 本 节 就 来 学 习 Python 中 的 模块 。 


7.1.1 ”Python 模块 

在 前 面 章节 的 综合 案例 中 ， 都 是 将 程序 代码 保存 在 一 个 后 缀 名 为 py 的 文件 中 ， 这 个 py 
文件 在 Python 中 就 被 认为 是 一 个 module〈 模 块 ) 。 增 加 一 个 mymodule.py 文件 ， 内 容 如 
下 : 


oling br 0 一 二 
""" 这 是 一 个 Python 模块 的 例子 """ 
module value=0 
def printvalue(): 

Print (module value) 





如 果 想 把 这 个 模块 加 入 Python 3.7 的 系统 路 径 ， 就 要 在 CiUser\ 用 户 名 | 
\AppData\Local\Programs\Python\Python37 下 创建 mymodule py 文件 。 : 


这 个 mymodule.py 在 Python 中 称 为 mymodule 模块 。 别 的 模块 可 以 通过 import 方法 导入 
mymodule 模块 ， 来 使 用 该 模块 中 的 变量 module _ value 和 函数 printvalue。 打 开 终 端 ， 进 入 
mymodule.py 文件 的 当前 目录 ， 并 进入 Python 交互 式 界面 。 例 如 : 


>>> import sys,os,importlib 





>>> sys.path.append(os.getcwd()) 
>>> importlib.reload(sys) 
<module 'sys' (built-in)> 

>>> import mymodule 

>>> print (mymodule.module value) 
0 

>>> mymodule. Printvalue() 

0 

>>> 


在 上 面 的 代码 中 ， 首 先 用 os.getcwd0 获 取 当 前 目录 的 路 径 ， 然 后 使 用 append0 将 这 个 路 
径 加 入 到 Python 的 系统 路 径 中 。 使 用 importlib.reload(sys) 重 新 载 入 sys 模块 ， 现 在 当前 路 径 
已 经 成 为 Python 的 系统 路 径 了 。 使 用 import 语法 导入 mymodule 模块 ， 这 样 就 可 以 使 用 
mymodule 的 变量 module_value 和 函数 printvalueO0 了 。 


7.1.2 导入 模块 
导入 一 个 Python 模块 到 当前 模块 中 ， 它 的 语法 规范 如 下 


import stmt ::= "import" module ["as" name] ( "," module ["as" name] )* 
| "from”" relative module "import" identifier ["as" name] 
("," identifier ["as" name] )* 
| "from" relative module "import" "(" identifier ["as" name] 
Ur” identifier I"as™ namel Ou Erne] 本) 
IErom module "mport” mw 
上 面 是 Python 语句 所 规定 的 导入 一 个 模块 到 当前 模块 的 语法 规范 : import_stmt 表示 
import 语句 ;， 双 引号 标明 的 是 关键 字 ; 方 括 号 表示 可 选 输入 ; 竖 线 表示 或 者 ; 小 括号 和 星 号 
合 在 一 起 使 用 ， 表 示 可 以 为 若干 个 小 括号 里 的 内 容 。 从 上 面 的 语法 规范 来 看 ，import 语句 有 
4 种 不 同 的 写法 (由 3 个 竖 线 分 隔 ) ， 分 别 如 下 : 




















(1) "import" module ["as" name] ("," module ["as" name] )* 

这 种 用 法 就 是 直接 在 import 后 面 加 模块 名 字 ， 并 且 这 个 名 字 还 可 以 使 用 关键 字 as 来 自 定 
义 ， 比 如 7.1.1 小 节 的 mymodule 模块 。mymodule 太 长 了 ， 可 以 使 用 下 面 的 语句 来 改变 引用 
的 名 字 : 


>>> import mymodule as my 

















>>> print (my.module value) 
0 
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>>> my.printvalue() 
0 


使 用 as 关键 字 将 mymodule 的 名 字 定 义 为 my 之 后 ， 就 可 以 直接 用 my 来 调用 mymodule 






































模块 里 的 变量 和 函数 了 。 


该 语句 还 可 以 导入 多 个 模块 。 例 如 ，sys 模块 是 Python 中 一 个 有 关 操作 系统 信息 的 模 





块 ， 现 在 要 使 用 import 一 次 性 导入 sys 和 mymodule， 该 如 何 处 理 呢 ? 可 以 使 用 下 面 的 语句 : 

>>> import sys,mymodule as my 

>>> sys.maxsize 

9223372036854775807 

>>> my.module value 

0 

(2) "from" relative_module "import" identifier ["as" name] (","identifier ["as" name] )* 

这 种 用 法 不 同 于 第 1 种 用 法 ， 增 加 了 from 关键 字 。 例 如 ，mymodule 的 模块 可 以 使 用 下 

面 的 代码 来 导入 : 


>>> from mymodule import module value,printvalue 
>>> printvalue() 

0 

>>> module value 

0 

>>> 


用 这 种 方法 来 导入 模块 以 后 ， 不 能 使 用 模块 名 字 来 调用 模块 变量 或 者 函数 之 类 的 ， 可 以 














直接 使 用 import 语句 后 面 所 导入 的 名 字 。 例 如 ，module_value 是 mymodule 模块 的 一 个 变 


量 ， 


[1] 








使 用 这 种 导入 方法 之 后 ， 就 可 以 直接 使 用 module_value 变量 。 





(3) "from" relative_ module "import" "("identifier ["as" name] ("," identifier ["as" name] )* 
由 
这 种 方法 和 第 2 种 方法 类 似 ， 只 是 在 import 后 加 上 括号 ， 将 需要 导入 的 部 分 用 元 组 进行 




















特别 说 明 ， 作 用 和 第 2 种 方法 是 一 样 的 ， 都 是 将 模块 的 变量 、 函 数 等 导入 到 当前 模块 。 例 


如 : 


>>> from mymodule import (module value,printvalue) 
>>> printvalue() 

0 

>>> module value 

0 

>>> 


(4) "from" module "import" "*" 
这 种 用 法 是 将 一 个 模块 的 所 有 成 员 都 导入 到 当前 模块 下 。 比 如 有 一 个 模块 testmodule， 




















有 几 十 个 不 同 的 成 员 ， 如 果 使 用 第 2 种 方法 ，import 后 面 要 写 上 几 十 个 不 同 的 名 字 ， 很 麻 
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烦 。 这 种 情况 就 可 以 使 用 本 方法 ， 用 星 号 来 代替 所 有 的 成 员 名 字 。 例 如 : 


>>> from module import * 
>>> print (module value) 

0 

>>> printvalue() 

0 


7.1.3 ”查找 模块 
当 import 一 个 模块 时 ，Python 要 到 哪里 去 找 模块 文件 呢 ? 以 mymodule.py 为 例 ， 实 际 上 
Python 查找 模块 的 步骤 有 3 步 : 


(1) 在 当前 目录 中 查找 mymodule py。 
(2) 若 没 有 找到 ， 则 继续 从 环境 变量 PYTHONPATH 中 查找 。 
(3) 若 没 有 PYTHONPATH 变量 ， 就 到 安装 目录 查找 ， 例 如 Ci\Python37\Lib。 


实际 上 要 将 查找 目录 的 信息 存放 到 sys 模块 的 path 变量 。 可 以 打印 该 变量 来 查看 Python 
的 查找 目录 : 


>>> import sys 

>>> sys.path 

['', 'C:\\WINDOWS\\system32\\python37.zip', 'C:\\Python37\\DLLs', 
'C:\\Python37\\1lib', 'C:\\Python37\\lib\\plat-win', 'C:\\Python37\\1ib\\lib- 
tk', 'C:\\Python37', 'C:\\Python37\\lib\\site-packages', 
'C:\\Python37\\lib\\site-packages\\gtk-2.0', 'C:\\Python37\\lib\\site- 
packages\\win32', 'C:\\Python37\\lib\\site-packages\\win32\\lib', 
'C:\\Python37\\lib\\site-packages\\Pythonwin', 'C:\\Python37\\lib\\site-— 


packages\\wx-2.8-msw-unicode'] 

从 查找 顺序 上 可 以 看 出 ， 当 前 目录 是 第 一 优先 查找 的 ， 所 以 如 果 在 当前 目录 下 建立 一 个 
了 Python 标准 库 模 块 一 样 名 字 的 Python 文件 ， 那 么 Python 会 用 该 文件 取代 标准 库 的 模块 ， 可 能 会 
产生 各 种 问题 。 因 此 当 编 写 Python 模块 的 时 候 ， 尽 量 不 要 使 用 标准 库 中 已 经 存在 的 名 字 。 














7.1.4 ”模块 编译 

Python 在 执行 程序 的 时 候 ， 实 际 上 有 一 个 虚拟 机 机 制 。 当 运行 Python 模块 文件 的 时 候 ， 
Python 会 将 后 级 名 为 .py 的 模块 文件 编译 为 后 缀 名 .pyc 的 字 节 码 文件 ， 在 运行 程序 的 时 候 ， 
实际 上 是 解释 执行 编译 之 后 的 .pyc 文件 。 这 点 和 Java 很 相似 ， 不 过 编译 成 字 节 码 文件 运行 以 
后 并 不 能 提高 Python 程序 的 运行 速度 ， 只 能 提高 装载 的 速度 。 例 如 7.1.1 小 节 的 
mymodule.py 模块 ， 当 在 PyShell 里 导入 该 模块 的 时 候 ，Python 会 在 mymodule.py 的 目录 里 
生成 一 个 字 节 码 文 件 mymodulepyc， 在 下 一 次 导入 的 时 候 ，Python 会 直接 装载 
mymodule.pyc 文件 来 提高 装载 速度 。 
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除了 编译 成 pyc 字 节 码 文件 外 ， 向 Python 解释 器 传递 两 个 -O 参数 〈-O0) 会 生成 优化 的 
字 节 码 .pyo 文件 。pyo 文件 相 比 pyc 文件 在 装载 的 时 候 更 快 一 点 ， 这 样 可 以 提高 Python 脚本 
的 启动 速度 〈 非 运行 速度 ) 。 不 过 需要 注意 的 是 ， 压 缩 的 .pyo 文件 删除 了 py 文件 里 用 来 存放 
注释 的 _doc 属性 ， 所 以 若 程 序 的 逻辑 功能 依赖 于 _doc 属性 ， 则 不 能 使 用 该 优化 方法 。 











程序 代码 太 多 可 以 分 成 多 个 模块 ， 那 模块 太 多 该 怎么 办 ? 可 以 组 合成 一 个 包 。 本 节 就 来 
学 习 Python 中 包 的 应 用 。 


7.2.1 Python 包 

包 是 一 组 模块 的 集合 ， 而 模块 是 一 个 Python 文件 ， 所 以 包 就 是 放 着 若干 个 Python 文件 
4 目录 ， 并 且 该 目录 下 有 一 个 _init _.py 文件 〈 包 的 初始 化 文件 ) ， 可 以 在 该 文件 里 导入 包 
里 的 所 有 Python 模块 。 例 如 ， 在 Python 的 安装 目录 下 ， 新 建 一 个 mypackage 的 目录 ， 在 里 
面 有 mymodule.py 文件 和 sysl.py 文件 。sysl.py 的 文件 内 容 如 下 : 


def printsys(): 











print ("this is system!") 
在 mypackage 目录 下 ， 新 建 一 个 _init _.py 文件 ， 内 容 为 : 


import mypackage.mymodule 
import mypackage.sysl 


这 样 mypackage 就 被 称 为 Python 的 一 个 包 ， 就 可 以 访问 模块 和 模块 的 成 员 了 ， 例 如 : 


>>> import mypackage 

>>> mypackage.sysl.printsys 
<function printsys at 0x01C89570> 
>>> mypackage.sysl .printsys() 

this is system! 

>>> mypackage .mymodule.printvalue() 
0 


init .py 可 以 是 空 文件 ， 不 过 在 编写 的 时 候 会 加 入 一 些 初 始 化 代码 ， 例 如 对 _all_ 属 
性 的 处 理 。 all_ 属 性 是 包 的 一 个 重要 属性 ， 一 般 用 来 存放 包 下 面 的 模块 名 称 ， 例 如 将 


mypackage 的 ”init 文件 修改 为 : 
_all =['mymodule','sys1'] 


在 该 包 的 _init _.py 文件 中 对 ”all 进行 设置 以 后 ， 就 不 需要 使 用 import 语句 来 导入 子 
模块 了 ， 这 种 方式 更 方便 一 些 ， 所 以 一 般 都 用 来 声明 包 的 模块 和 子 包 。 
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7.2.2 包 的 导入 
包 的 导入 和 模块 的 导入 是 一 样 的 语法 规则 ， 例 如 : 


>>> import mypackage as my 


>>> my.sysl.printsys() 

this is system! 

>>> from mypackage import * 
>>> sysl.printsys() 

this is system! 

>>> 


和 模块 导入 不 同 的 地 方 是 第 4 种 带 星 号 的 导入 的 用 法 ， 当 写 下 from mypackage import * 
时 会 发 生 什么 事 呢 ?理想 情况 下 ， 总 是 希望 在 文件 系统 中 找 出 包 所 有 的 子 模块 ， 然 后 导入 ， 
但 是 实际 上 并 不 是 如 此 。 当 使 用 from mypackage import * 语 句 导 入 一 个 包 的 时 候 ， 实 际 上 
Python 会 做 以 下 两 步 : 

(1) import 语句 按 如 下 条 件 进行 转换 : 执行 fom mypackage import * 时 ， 如 果 包 中 的 
__init _.py 代码 定义 了 一 个 名 为 _all _ 的 列表 ， 就 会 按照 列表 中 给 出 的 模块 名 进行 导入 。 例 
如 ，_init .py 的 内 容 如 下 : 

_all =['‘sys1’] 

那么 使 用 from mypackage import * 导 入 模块 的 时 候 ， 实 际 导入 的 只 有 sys1， 而 没有 
mymodule: 


>>> from mypackage import * 





>>> dir() 
I annotationse WV bballtinse Mr "doc 9 " A0ader Ty "Nnamer Vy 
package ri “Spee Wo Uva 








dir0 函 数 是 Python 内 置 函 数 ， 用 一 个 列表 形式 来 打印 对 象 的 成 员 名 字 。 从 上 面 的 结果 可 
以 看 出 ，mypackage 的 sysl 模块 已 经 导入 到 当前 模块 中 ， 而 mymodule 则 没有 。 


(2) 如 果 没 有 定义 _all _ ， 那 么 ffom mypackage import * 语句 就 不 会 从 mypackage 包 


中 导入 所 有 的 子 模块 。mypackage 只 导入 _init 所 用 于 的 命名 空间 ， 如 果 _ init 为 一 个 空 文 
件 ， 那 么 fom mypackage import * 实 际 上 不 能 导入 任何 一 个 子 模块 到 当前 模块 中 。 


从 上 面 的 分 析 可 以 看 出 ， all 列表 可 以 看 成 是 包 的 索引 ， 指 定 了 包 所 拥有 的 模块 的 名 
字 。 在 编写 Python 包 的 时 候 ， 一 般 都 建议 在 init _.py 文件 里 面 明确 地 设置 all 列表 。 
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7.2.3 内 内 包 

对 于 功能 较为 复杂 的 程序 ， 一 个 大 的 包 里 面 套 着 若干 个 子 包 ， 每 个 子 包 又 有 若干 个 模 
块 。 以 Python 处 理 XML 的 标准 库 XML 模块 为 例 〈 该 模块 文件 就 在 Python 安装 目录 里 ) ， 
它 就 包括 了 4 个 不 同 的 子 包 ， 每 个 子 包 都 有 不 同 的 作用 。 例 子 7.1 用 来 演示 如 何 将 XML 模块 
的 代码 文档 结构 打印 出 来 。 
例子 7.1 XML 模块 的 代码 结构 











xml/ Top-level package 
5 Initialize the xml package 
parsers/ Subpackage for file parsers 
nlite 
expat .py 
dom/ Subpackage for dom 
hb) + 
domreg.py 


expatbuilder.py 
minicompat .py 
minidom.py 
NodeFilter.py 
NodeFilter.py 
xmlbuilder.py 
sax/ Subpackage for sax 
— dnit BY 
_exceptions.py 
expatreader.py 
handler.py 
xmlreader.py 
saxutils.py 
etree/ Subpackage for etree 
dnit> opy 
cElementTree.py 
ElementIinclude.py 
ElementPath.py 
ElementTree.py 


从 例子 7.1 的 代码 结构 图 就 可 以 看 到 ，XML 标准 库 模块 有 4 个 功能 不 同 的 子 包 ， 其 中 
parsers 和 etree 包 只 提供 XML 包 内 部 调用 的 功能 ， 所 以 它们 的 _init _.py 文件 没有 什么 初始 
化 的 内 容 ， 只 是 写 了 几 行 注释 来 说 明 该 包 的 作用 ， 而 dom 和 sax 包 不 同 ， 它 们 是 需要 提供 给 
外 部 调用 的 功能 模块 (dom 包 以 DOM 方式 来 操作 XML，sax 包 以 SAX 方式 来 操作 
XML) ， 所 以 它们 的 _init .py 文件 里 都 增加 了 不 少 初始 化 代码 ， 并 且 增 加 了 对 模块 功能 的 
包装 。 
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DOM 和 SAX 是 两 种 对 XML 文档 处 理 的 不 同方 式 。DOM 的 方式 是 将 XML 文件 以 树 形 
的 数据 结构 全 部 读 到 内 存 中 ; SAX 则 是 事件 驱动 地 解析 XML 文件 ， 一 点 一 点 解析 XML 
文件 ， 遇 到 某 个 新 的 起 点 或 终点 时 调 一 个 回调 函数 来 处 理 XML 文件 。 


.对 于 内 柑 包 的 使 用 ,需要 注意 的 只 有 一 点 ,… 那 就 是 在 装载 邻居 包 的 模块 时 要 使 用 邻居 人 包 
和 模块 的 全 名 ， 没 有 简洁 的 方法 。 例 如 ， 在 例子 7.1 中 ，dom 中 的 domreg py 模块 要 使 用 
etree 包 的 ElementTree.py 模块 时 ， 可 以 使 用 如 下 方法 导入 : 


import etree. ElementTree 
或 者 : 


from etree import ElementTree 


了 .了 本 章 小 结 
本 章 讨论 了 Python 中 模块 和 包 的 概念 ， 对 一 个 较 大 规模 的 Python 程序 ， 需 要 将 功能 分 


成 几 部 分 来 实现 ， 这 时 就 需要 用 到 模块 和 包 : 模块 是 一 个 Python 的 代码 文件 ， 包 负责 对 模块 
文件 的 封装 。 其 中 ， 最 需要 注意 的 是 _init 文件 的 作用 。 
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前 面 章节 介绍 了 面向 对 象 的 概念 ， 在 面向 对 象 编程 语言 中 ， 可 以 定义 类 ， 将 相关 的 数据 
和 行为 捆绑 在 一 起 。 这 些 类 可 以 继承 父 类 部 分 或 全 部 的 性 质 ， 同 时 也 可 以 定义 自己 的 属性 
(数据 ) 或 方法 〈 行 为 ) 。 在 定义 类 的 过 程 结束 时 ， 类 通常 充当 用 来 创建 实例 “有 时 也 简单 
地 称 为 对 象 ) 的 模板 。 同 一 个 类 的 不 同 实例 通常 有 不 同 的 数据 ， 但 “外 表 ” 都 是 一 样 的 。 既 
然 对 象 是 以 类 为 模板 来 生成 的 ， 那 么 类 是 以 什么 模板 来 生成 的 呢 ? 

本 章 的 主要 内 容 是 : 


@ 元 类 的 概念 。 
@ ”AOP 的 概念 。 
@ 新 型 类 的 使 用 。 


8.1 元 类 


元 类 是 Python 语言 中 的 高 级 主题 ， 事 实 上 绝 大 部 分 情况 下 都 不 是 必须 使 用 它 才能 完成 开 
发 ， 但 是 元 类 动态 地 生成 类 的 能 力 能 够 更 方便 地 解决 下 面 情景 的 难题 。 


@ ”类 在 设计 时 并 不 是 所 有 部 分 都 确切 地 知道 所 有 的 细节 ， 有 些 细节 要 通过 在 程序 运行 
时 得 到 的 信息 才能 决定 。 

@@ 在 某 些 情景 下 ， 类 比 实例 更 重要 。 例如， 编写 一 个 声明 性 语言 (declarative mini- 
languages ) 的 时 候 ， 在 类 声明 中 直接 表示 了 它 的 程序 逻辑 ， 使 用 元 类 来 影响 类 创建 
的 过 程 就 相当 有 用 。 


8.1.1 类 工厂 
在 Python 老 版 本 里 可 以 使 用 类 工厂 函数 来 创建 类 ， 返 回 在 函数 体内 动态 创建 的 类 ， 例 
如 : 


>>> def class with method(func) : 
class klass: pass 


setattr(klass, func. name , func) 
return klass 

>>> def say fool(self): print('foo') 

>>> Foo = class with method(say foo) 

>>> foo = Foo() 

>>> foo.say foo() 


Foo 


函数 class_with_method 是 一 个 类 工厂 函数 ， 通 过 setattr0 方 法 来 设置 类 的 成 员 函 数 ， 并 
且 返 回 该 类 。 这 个 类 的 成 员 方 法 可 以 通过 class_with method 的 func 参数 来 指定 。 














8.1.2 初 识 元 类 

类 工厂 的 方法 都 是 通过 一 个 函数 来 生成 不 同 的 类 。 类 工厂 可 以 是 类 ， 就 像 它们 可 以 跟 函 
数 一 样 容易 。 在 Python 2.2 之 后 ， 提 供 了 一 个 称 为 type 的 特殊 类 就 是 这 样 的 类 工厂 ， 即 所 谓 
的 元 类 。 元 类 是 类 的 类 ， 类 是 元 类 的 实例 ， 对 象 是 类 的 实例 。 

元 类 type 的 使 用 方法 如 下 : 

>>> Foo=type('Foo', (),{'say foo':say fool) 

>>> fool=Foo() 

>>> fool.say_foo() 


上 面 的 Foo 不 是 函数 的 返回 结果 ， 而 是 type 元 类 实例 化 之 后 的 类 ， 虽 然 看 起 来 很 像 ， 却 
是 完全 不 同 的 生成 方式 。 

元 类 type 首先 是 一 个 类 ， 所 以 比 类 工厂 的 方法 更 灵活 多 变 ， 可 以 自由 创建 子 类 来 扩展 元 
类 的 能 力 ， 例 如 : 


>>> class ChattyType (type): 
.def new_ (cls, name, bases, dct): 
print ("Allocating memory for class", name) 
return type. new _ (cls, name, bases, dct) 
“def init (cls, name, bases, dct): 
print ("Init'ing (configuring) class", name) 
人 super (ChattyType, cls). init (name, bases, dct) 
>>> aa=ChattyType ('Foo', (),{}) 
Allocating memory for class Foo 


Init'ing (configuring) class Foo 
其 中 ，_new_ 分 配 创建 类 和 init 方法 配置 类 是 类 type 内 置 的 基本 方法 。 需 要 注意 的 
是 ， 这 两 个 方法 的 第 一 个 参数 均 为 cls 〈 特 指 类 本 身 ) ， 而 非 self (类 的 实例 ) 。 

当 用 元 类 实例 化 一 个 类 的 时 候 ， 类 将 会 获得 元 类 所 拥有 的 方法 ， 就 像 类 实例 化 对 象 的 时 
候 对 象 会 获得 类 所 拥有 的 方法 一 样 。 例 子 8.1 是 元 类 实例 化 的 例子 。 
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例子 8.1 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
将 
这 之 
13 
14 
15 
16 
1 
18 
了 
20 


第 1~10 行 定义 了 一 个 类 ChattyType， 继 承 于 type; 在 第 11 行 中 ， 元 类 ChattyType 实例 
化 之 后 得 到 了 一 个 类 foo， 拥 有 元 类 的 方法 add0， 而 继续 将 类 foo 实例 化 之 后 的 对 象 xx 并 没 
有 add0 方 法 ， 这 就 是 实例 化 和 继承 的 一 大 区 别 。 多 层次 继承 的 时 候 ， 子 类 可 以 获得 父 类 或 
“ 父 类 的 父 类 ”的 所 有 方法 和 属性 ， 而 实例 化 不 同 ， 实 例 化 只 能 获得 实例 化 它 的 类 所 定义 的 
方法 。 图 8.1 用 来 说 明 这 一 点 : A 实例 化 得 到 B，B 实例 化 得 到 C， 其 中 C 所 拥有 的 方法 只 
有 B 所 定义 的 属性 和 方法 ， 而 C 继承 B，B 继承 A， 实 际 C 拥有 A 和 B 所 有 的 属性 和 方 


法 。 
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元 类 的 实例 化 
>>> class ChattyType (type): 


def _new (cls, name, bases, dct): 


print ("Allocating memory for class", name) 


return type. new (cls, name, bases, 
def _init (cls, name, bases, dct): 

print("Init'ing (configuring) class", 

super (ChattyType, cls). init (name, 
def add(cls): 


print ("metaclass method") 


>>> x=ChattyType ('foo', (),{}) 
Allocating memory for class foo 
Init'ing (configuring) class foo 
>>> x.add() 

metaclass method 

>>> xx=x() 

>>> xx.add() 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 


dct) 


name) 


bases, 


AttributeError: 'foo' object has no attribute 'add' 


实例 化 


图 8.1 继承 和 实例 化 的 区 别 








dct) 


8.1.3 设置 类 的 元 类 属性 

在 Python 中 ， 每 一 个 类 都 是 经 过 元 类 实例 化 而 来 ， 只 不 过 这 个 实例 化 的 过 程 在 很 多 情况 
下 都 是 由 Python 解释 器 自动 完成 的 。 每 一 ee 用 来 说 明 该 类 的 
元 类 ， 一 般 情况 下 该 属性 都 由 Python 解释 器 自动 设置 ， 不 过 用 户 也 可 以 更 改 类 的 
__metaclass ”属性 来 更 改 类 的 元 类 。 

设置 类 的 元 类 属性 ， 可 以 在 类 的 内 部 直接 设置 _metaclass”_ 属 性， 或 者 直接 设置 全 局 变 
量 _metaclass”。 如 果 设 置 全 局 变量 _metaclass 属性， 那么 该 命名 空间 下 定义 所 有 的 类 的 
元 类 都 将 是 全 局 变量 _metaclass ”所 指定 的 元 类 。 例 子 8.2 是 类 的 元 类 属性 设置 的 例子 。 


例子 8.2 类 的 元 类 属性 的 设置 


01 >>> class ChattyType (type): 














[i def new_ (cls, name, bases, dct): 

Do print("Allocating memory for class", name) 
1 return type._ new_ (cls, name, bases, dct) 
1 def _ init (cls, name, bases, dct): 

DG print("Init'ing (configuring) class", name) 
|' ir super (ChattyType, cls). init (name, bases, dct) 
08 

09 >>> class example (metaclass=ChattyType): 

4 1 A def so TNL (3eLt)s 

1 因 站 于 二 printt"this Ls nit 

12 


13 Allocating memory for class example 


14 Init'ing (configuring) class example 

第 1~8 行 定义 了 一 个 元 类 ChattyType， 第 9~11 行 定义 了 一 个 类 example。 因 为 Python 3 
取消 了 属性 _metaclass”， 所 以 元 类 必须 在 定义 类 时 采用 metaclass= 元 类 名 的 方式 声明 。 实 
际 上 第 9~11 行 定 义 类 的 代码 也 就 是 元 类 ChattyType 实例 化 类 example 的 代码 ， 等 同 于 如 下 
代码 : 


> def Jnit Melf)prinE “this se LnBEtl™” 





>>> example=ChattyType('example', (), {'_ init ': init  }) 
Allocating memory for class example 


Init'ing (configuring) class example 


8.1.4 元 类 的 魔力 
从 上 面 几 个 小 节 可 以 了 解 到 元 类 最 重要 的 两 个 方面 : 
@@ 类 是 由 元 类 实例 而 来 的 ， 类 的 定义 过 程 实际 上 是 元 类 实例 化 的 过 程 。 
@ ”类 的 元 类 可 动态 改变 ， 可 以 直接 设置 全 局 变量 _metaclass 来 改变 。 





145 





改变 全 局 变量 _metaclass ”， 就 改变 类 的 元 类 ， 而 类 又 是 元 类 实例 的 结果 ， 所 以 元 类 可 
以 改变 类 的 定义 过 程 。 换 旬 话 说 ， 只 要 改变 全 局 变量 _metaclass”， 就 能 神 不 知 鬼 不 觉 地 改 
变 一 个 类 的 定义 ， 这 就 是 元 类 的 魔力 。 例 子 8.3 是 一 个 元 类 魔力 的 简单 例子 。 


例子 8.3 元 类 魔力 的 简单 例子 





01 >>> class example: 


02 ee nt aas 

03 print ("this i example!") 
04 def test msg(self): 

05 print ("this is test msg!") 


06 >>> aa=example() 

07 this i example! 

08 >>> aa.test msg() 

09 this is test msg! 

10 >>> class change (type): 


I def new_ (cls,name,bases,dict): 

有 def test_msg(self) : 

3 print("the test msg is changed!") 

1 dict['test msg']=test msg 

5 return type. new_ (cls,name,bases,dict) 


16 >>> class example (metaclass=change): 


了 全 dor inlt (ses) 

LD print ("this i example!") 
hE: def test msg(self): 

20 print ("this is test msg!") 
区 让 


22 >>> aa=example() 

23 this i example! 

24 >>> aa.test msg() 

25 the test msg is changed! 


第 1~5 行 定义 了 一 个 类 example， 它 有 两 个 方法 _init _ 和 test_ msg0。 第 10~16 行 定义 了 一 

个 元 类 change， 将 dict 参数 中 的 test_ msgO 蔡 换 成 了 内 定义 的 方法 test msg0 (第 12~14 行 )。 也 

就 是 说 ， 如 果 一 个 类 以 该 类 为 元 类 ， 那 么 它 的 test_msg0 方 法 会 被 元 类 自 定义 的 test_msg0 所 替 

换 ， 所 以 在 第 17~20 行 以 同样 的 代码 定义 类 example， 它 们 的 test_msg0 方 法 结果 则 完全 不 一 样 
(第 8 行 和 第 24 行 相 比 较 ) 这 种 “ 偷 天 换 日 ”的 手段 正 是 元 类 魔力 的 小 小 展示 。 


8.1.5 面向 方面 和 元 类 

元 类 的 这 种 魔力 能 带 来 什么 实用 价值 吗 ? 实际 用 途 确 实 是 有 的 ， 很 接近 于 面向 方面 的 编 
程 。 面 向 方面 编程 (Aspect Oriented Programming，AOP) 的 核心 内 容 就 是 所 谓 的 “ 横 切 关注 
点 ”。 





tt 
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使 用 面向 对 象 方法 构建 软件 系统 ， 我 们 可 以 利用 OO 的 特性 很 好 地 解决 纵向 的 问题 ， 因 
为 OO 的 核心 概念 ， 如 继承 等 ， 都 是 纵向 结构 的 。 但 是 ， 在 软件 系统 中 往往 有 很 多 模块 或 者 
很 多 类 共享 某 个 行为 ， 或 者 说 某 个 行为 存在 于 软件 的 各 个 部 分 中 ， 这 个 行为 可 以 看 作 是 “ 横 
向 ”存在 于 软件 之 中 ， 它 所 关注 的 是 软件 各 个 部 分 共有 的 一 些 行为 ， 而 且 在 很 多 情况 下 这 种 
行为 不 属于 业务 逻辑 的 一 部 分 。 例 如 ， 操 作 日 志 的 记录 并 不 是 业务 罗 辑 调用 的 必需 部 分 ， 但 
是 我 们 却 往往 不 能 在 代码 中 显 式 调用 ， 并 承担 由 此 带 来 的 后 果 《〈 例 如 ， 当 日 志 记录 的 接口 发 
生变 化 时 ， 不 得 不 对 调用 代码 进行 修改 ) 。 这 种 问题 ， 使 用 传统 的 OO 方法 是 很 难 解决 的 。 
AOP 的 目标 便 是 将 这 些 “ 横 切 关 注 点 ”与 业务 逻辑 代码 相 分 离 ， 从 而 得 到 更 好 的 软件 结构 以 
及 性 能 、 稳 定性 等 方面 的 好 处 ， 如 图 8.2 所 示 。 








纵向 关注 点 





日 志 处 理 


安全 检测 





事务 处 理 
> 














Vv Vv 
图 8.2 面向 方面 


一 个 软件 系统 的 业务 逻辑 上 有 很 大 一 部 分 代码 都 是 AOP 里 所 说 的 横 切 关注 点 ， 例 如 日 
志 处 理 、 安 全 检测 、 事 务 处 理 、 权 限 检查 等 。 这 部 分 代码 占 了 很 大 的 比例 ， 几 乎 在 每 个 地 方 
都 要 调用 。AOP 的 思想 就 是 把 这 些 横 切 关注 点 代码 抽取 出 来 ， 不 再 在 各 个 软件 模块 中 显 式 使 


/ 















































例如 ， 日 志 处理 是 每 个 软件 都 有 的 功能 ， 一 般 习惯 在 做 一 些 操作 前 写 上 开始 模块 处 理 的 
日 志 、 处 理 结束 写 上 处 理 结束 、 处 理 出 错 写 上 处 理 告警 等 。 如 果 一 个 软件 有 几 百 个 处 理 步 
又 ， 每 个 步骤 都 需要 有 正常 日 志 、 异 常 日 志 ， 那 么 这 个 软件 仅仅 是 写 日 志 的 代码 就 要 数 千 行 
甚至 上 万 行 了 ， 维 护 起 来 相当 困难 。 

如 果 部 分 代码 不 需要 手工 写 到 各 个 业务 逻辑 处 理 的 地 方 ， 而 是 把 这 部 分 代码 独立 起 来 ， 
各 个 业务 逻辑 处 理 的 地 方 会 在 运行 的 时 候 自 动 调用 这 些 横 切 点 功能 ， 这 样 代码 量 就 少 很 多 ， 
也 方便 很 多 ， 这 就 是 AOP 的 核心 地 方 。 
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要 实现 AOP 所 说 的 自动 调用 ， 有 的 语言 使 用 Aspect 编译 器 ，Python 则 使 用 元 类 。 


8.1.6 元 类 的 小 结 

Python 的 元 类 具有 动态 改变 类 的 能 力 ， 给 编程 带 来 了 更 方便 的 动态 性 和 能 力 。 需 要 注意 
的 是 ， 在 实际 使 用 过 程 中 ， 需 要 防止 过 度 使 用 元 类 来 动态 改变 类 ， 过 于 复杂 的 元 类 通常 会 带 
来 代码 难以 调试 和 可 读 性 差 的 问题 ， 而 Python 语言 是 所 有 语言 中 最 强调 良好 可 读 性 和 实用 性 
的 语言 ， 所 以 一 定 要 在 确实 需要 使 用 的 时 候 才 使 用 元 类 。 

















号 .2 新 型 类 


在 Python 2.2 之 后 ，Python 的 对 象 世 界 和 之 前 的 版 本 相 比 发 生 了 重大 的 变化 ， 有 了 两 种 
不 同 的 类 : 新 型 类 和 传统 类 (经典 类 ) 。 下 面 将 介绍 这 两 种 类 的 不 同 。 


8.2.1 新 型 类 和 传统 类 的 区 别 

在 老 版 本 的 Python 中 ， 并 非 所 有 的 均 是 对 象 ， 内 置 的 数值 类 型 〈 例 如 整 型 、 字 符 型 都 不 
是 类 ) 都 不 能 被 继承 ， 而 在 版 本 2.2 之 后 ， 任 何 内 建 类 型 也 都 是 继承 自 object 类 的 类 ， 凡 是 
继承 自 类 object 或 者 object 子 类 的 类 是 新 型 类 ， 而 不 是 继承 于 object 或 者 object 子 类 的 都 称 
为 传统 类 。 新 的 对 象 模型 与 传统 对 象 模型 相 比 有 小 但 却 很 重要 的 优势 ，Python 版 本 对 传统 类 
的 支持 主要 是 为 了 兼容 性 ， 所 以 使 用 类 的 时 候 推 荐 从 现在 开始 直接 使 用 新 型 类 。 


保持 兼容 性 ， 不 得 不 将 类 划分 为 两 种 类 ， 这 使 得 Python 的 对 象 模型 不 那么 清晰 简 : 
单 ， 而 Python 社区 从 Python 3 版 本 开始 ， 将 放弃 兼容 性 ， 在 Python 3.X 版 本 中 将 只 : 
存在 新 型 类 。 | 


新 型 类 是 继承 自 类 object 或 者 object 子 类 的 ， 实 际 上 所 有 的 内 建 类 型 都 是 从 object 继承 
而 来 的 ， 可 以 用 函数 issubclass0 来 验证 。 当 存在 子 类 和 父 类 关系 的 时 候 ，issubclass() 返 思 
Tme， 不 存在 则 返回 False， 例 如 : 


>>> issubclass (int,object) 























True 

>>> issubclass (float,object) 
Trae 

>>> issubclass (list,object) 
True 

>>> issubclass (dict,object) 


Trus 
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>>> class C: 


pass 


>>> issubclass(C,object) 


False 


从 上 面 的 代码 可 以 看 出 ，list、int、float、dict 都 是 object 的 子 类 ， 而 类 C 没有 继承 于 
object， 所 以 是 传统 类 。 


8 2.:2 


类 方法 和 静态 方法 


新 的 对 象 模型 提供 了 两 种 类 的 新 方法 : 静态 方法 和 类 方法 。 在 新 版 本 的 Python 中 ， 传 统 
类 也 支持 了 类 方法 (但 是 不 支持 静态 方法 ) 。 

静态 方法 可 以 直接 被 类 或 类 实例 调用 ， 没 有 常规 方法 那样 的 规则 限制 〈 绑 定 、 非 绑 定 、 
默认 的 第 一 个 参数 规则 等 ) ， 也 就 是 说 静态 函数 的 第 一 个 参数 不 需要 指定 为 self， 也 不 需要 
只 有 对 象 〈 类 的 实例 ) 才能 调用 。 例 子 8.4 是 类 的 常规 方法 和 静态 方法 的 对 比 。 


例子 8.4 ”常规 方法 和 静态 方法 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
下 
2 
13 
14 
15 
16 
17 
18 
13 
20 
21 
必 之 
之 3 
24 
25 














>>> class ClassRA(object) : 
@staticmethod 
def teststatic(aal) : 
print (aa) 
def testnormal (aa): 
print (aa) 
def testnormal2 (self,aa): 


print (aa) 


>>> ClassA.teststatic(33) 
33 
>>> ClassA.testnormal (33) 
加 本 
>>> ClassA.testnormal2 (33) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: testnormal2() missing 1 required positional argument: 'aa' 
>>> in A = ClassR() 
>>> in A.teststatic(33) 
号 可 
>>> in A.testnormal (33) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: testnormal () takes 1 positional argument but 2 were given 


>>> in A.testnormal2(33) 
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26 33 


迷 这 >>> 


类 ClassA 定义 了 3 种 不 同 的 方法 : teststatic()、testnormal()、testnormal2()。 其 中 ， 定 义 
teststatic() 前 面 一 行 加 了 静态 方法 的 说 明 语 法 @staticemethod， 所 以 teststatic0 是 静态 函数 ， 
testnormal0 和 testnormal20 的 区 别 在 于 ，testnormal20 的 第 一 个 参数 是 self。 在 上 面 的 例子 
里 ， 分 别 用 类 和 类 的 实例 化 之 后 的 对 象 调用 这 3 个 不 同 的 方法 ， 可 以 看 到 它们 的 运行 结果 。 

@ 使 用 类 调用 这 3 种 不 同 的 方法 


调用 静态 方法 teststatic0 可 以 正确 运行 出 结果 ， 实 例 方法 testnormal0 也 能 得 到 结果 ， 而 
testnormal20 则 无 法 正确 调用 。 

@ 使 用 类 的 实例 去 调用 这 3 种 不 同 的 方法 

静态 方法 teststatic0 可 以 正确 运行 结果 ， 而 testnormal0 无 法 正确 运行 ， 这 是 因为 
testnormal0 的 第 一 个 参数 不 是 self， 而 当 一 个 类 实例 对 象 调用 该 常规 方法 时 ， 是 自动 将 类 实 
例 对 象 作为 第 一 个 参数 传 给 该 方法 ， 所 以 调用 testnormal0 的 时 候 ，Python 解释 器 会 提示 
testnormal() 函 数 只 定义 了 一 个 参数 ， 而 传 了 两 个 参数 给 它 。 

定义 一 个 类 方法 ， 只 需要 在 方法 前 加 上 人 @classmethod 描述 语法 就 可 以 了 ， 例 如 : 


>>> class ClassRA(object) : 





























@classmethod 
def testclass(cls,aa): 
print (aa) 
>>> ClassA.testclass (33) 
333 
>>> inst=ClassA() 
>>> inst.testclass (33) 
23 


上 面 例子 中 ClassA 的 方法 testclass0 是 一 个 类 方法 ， 不 管 是 使 用 类 来 调用 这 个 方法 或 者 
使 用 类 的 实例 来 调用 ， 都 是 将 类 作为 第 一 个 参数 传 入 。 


8.2.3 新 型 类 的 特定 方法 


1._new_ 和 _ init 方法 

新 型 类 包含 一 个 _new_ 方法 ， 当 一 个 类 C 调用 C(*args,**kwds) 创 建 一 个 C 类 实例 时 ， 
Python 内 部 实际 上 调用 的 是 C. new_(C,*args,**kwds)。new 方法 的 返回 值 x 就 是 该 类 的 实 
例 对象 ， 在 确认 x 是 C 的 实例 以 后 ，Python 调用 C. init (x,*args,**kwds) 来 初始 化 这 个 实 
例 ， 例 如 : 


Ss>> class C(object})s 























def _ new Vels)s 


150 


print ("this is C new method") 

return object. new (cls) 
def init” (self)s 

print ("this is C init method") 


>>> cc=C() 
this is C new method 


this is C init method 
实际 上 Python 会 将 上 面 的 cc=CO 这 行 代码 转换 成 如 下 代码 : 


>>> X=C. new  (C) 

this is C new method 

>>> if isinstance (x, C) : 
C. init _(x) 


this is C init method 


object.new_ 的 作用 是 接受 一 个 类 参数 (所 以 _new_ 第 一 个 参数 为 cls) ， 返 回 该 类 参 
数 的 实例 (也 是 返回 self) ， 然 后 Python 判断 该 实例 是 该 类 的 实例 ， 就 调用 该 类 的 _init_ 对 
该 类 实例 做 _init_ 初始化 操作 (所 以 _init_ 的 第 一 个 参数 为 self) 。 从 中 可 以 看 出 新 型 类 的 
方法 _new_ 和 init ， 前 者 用 来 分 配 内 存 生成 类 实例 ， 后 者 对 类 实例 对 象 做 初始 化 操作 。 


不 要 将 新 型 类 的 _new_ 方法 和 元 类 的 _new 方法 混淆 ， 新 型 类 的 _ new 用 来 生成 类 
的 实例 ， 而 元 类 的 _new_ 用 来 生成 类 。 

新 型 类 的 方法 _new_ 能 够 生成 类 的 实例 ， 可 以 用 _new_ 来 实现 一 些 传 统 类 无 法 做 到 的 
功能 。 例 如 ， 可 以 让 一 个 类 只 能 实例 化 一 次 : 


>>> class Cl(object): 
_objectpool={} 
def new (cls): 
if not cls in cls. objectpool: 
cls. objectpool[cls]=object. new (cls) 


return cls. objectpool[cls] 


>>> x=C() 
>>> Y=C() 
>>> id (x) 
2782665276608 
>>> id(Y) 
2782665276608 


在 上 面 的 例子 中 ， 类 C 定义 了 私有 变量 objectpool， 用 来 存放 类 C 的 实例 化 对 象 ， 当 
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_ new_ 生成 该 类 的 实例 对 象 时 ， 先 到 _objectpool 中 查看 是 否 已 有 实例 化 的 对 象 ， 如 果 没 有 
才 调 用 object_new_ 去 实例 化 对 象 ， 所 以 类 C 只 能 实例 化 出 一 个 对 象 。 


2. _ getattribute ”方法 

新 型 类 的 _ getattribute “方法 由 基 类 对 象 提供 ， 负 责 实现 对 象 属性 引用 的 全 部 细节 。 新 
型 类 在 调用 它 自身 的 类 或 者 方法 时 ， 实 际 上 都 是 先 通 过 该 方法 来 调用 ， 例 如 : 

>>> class Cl(object): 


def test(self): 
print ("this is test!") 






























































def _ getattribute (self,name): 
print ("calling to "+name) 
return object. getattribute (self,name) 
>>> x=C() 
>>> x.test() 


calling to test 
this is test! 


在 上 面 的 代码 中 ， 类 C 定义 了 一 个 方法 test0， 并 在 调用 object. getattribute _ 前 打印 字 
符 串 ， 所 以 当 C 的 实例 类 x 调用 test0 方 法 时 ， 结 果 不 是 打印 一 行 字 符 串 而 是 两 行 字符 串 。 
因为 新 型 类 调用 自身 的 属性 和 方法 时 都 会 先 调 用 getattribute _ ， 所 以 可 以 使 用 
getattribute ”去 处 理 一 些 特殊 的 需求 ， 例 如 隐藏 父 类 的 方法 : 


class listNoAppend (list): 




















def _getattribute (self, name): 
if name == '‘'append': raise AttributeError ("name") 


return list. getattribute (self, name) 
上 面 的 代码 定义 了 listNoAppend 类 (继承 自 内 建 类 型 list 类 ) ， 重 定义 了 __getattribute _ 


方法 。 当 调用 append() 方 法 时 直接 抛 出 AttributeError 异常 ， 相 当 于 隐藏 了 list 的 append0 方 
法 。 


8.2.4 新 型 类 的 特定 属性 

内 建 property 类 用 来 绑 定 类 实例 的 方法 ， 并 将 其 返 
法 如 下 : 

attrib = property (fget=None, fset=None, fdel=None, doc=None) 

假设 在 一 个 类 C 里 如 上 定义 了 attrib 属性 (通过 property 来 创建 的 ) ， 而 x 是 C 的 一 个 
实例 ， 那 么 当 引 用 x.attrib 时 ，Python 会 调用 fget0 方 法 取 值 ， 当 为 x.attrib 赋值 x.attrib=value 
时 ，Python 会 调用 fset0 方 法 ， 并 且 value 值 作为 fset0 方 法 的 参数 ; 当 执 行 del x.attrib 时 ， 








Ee 








值 绑 定 为 一 个 类 属性 ， 它 的 定义 语 
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Python 调用 fael0 方 法 ， 传 过 去 的 名 为 doc 的 参数 即 为 该 属性 的 文档 字符 串 。 如 果 不 定 义 
fset0 和 fdel0 方 法 ， 那 么 attrib 就 将 是 一 个 只 读 属性 。 
property 可 以 方便 地 将 一 个 函数 的 返回 值 转换 为 属性 。 这 在 很 多 场合 是 非常 有 用 的 ， 例 
如 定义 一 个 长 方形 类 ， 如 果 要 将 它 的 面积 也 作为 一 个 属性 ， 就 可 以 用 property 将 计算 面积 的 
方法 绑 定 为 一 个 属性 ， 例 如 : 
Class Rectangle (object): 
def _ init (self, width, heigth): 
self.width = width 
self.heigth = heigth 
def getArea (self): 
return self.width * self.heigth 
































area = property(getArea, doc='area of the rectangle') 


在 上 面 的 代码 中 ，getArea0 是 一 个 计算 面积 的 方法 ， 使 用 property 将 该 方法 的 返回 值 转 
换 为 属性 area， 这 样 引用 Rectangle 的 area 时 ，Python 会 自动 使 用 getArea0 计 算出 面积 。 在 
这 个 例子 里 ，property 只 指定 了 fget0 方 法 ， 没 有 指定 fset0 和 ftael0， 所 以 area 属性 是 一 个 只 
读 属性 。 





8.2.5 类 的 super() 方 法 

新 型 类 提供 了 一 个 特殊 的 方法 super()。super(aclass,obj) 返 回 对 象 obj 的 一 个 特殊 的 超 对 
象 〈superobject) 。 当 我 们 调用 该 超 对 象 的 一 个 属性 或 方法 时 ， 就 保证 了 每 个 父 类 的 实现 均 
被 调用 且 仅 仅 调用 一 次 。 例 子 8.5 是 super0 方 法 的 一 个 应 用 实例 。 
例子 8.5 ”super() 方 法 的 使 用 


01 >>> class Al(object): 


























| def met (self): 
Es print('A.met') 
OA a 

05 °°" >>> class B(AY: 

1 def met (self): 
[rr print('B.met') 
1 和 A.met (self) 

0 

0 >> class CLA): 

ul SA def met (self): 
D2 print('C.met') 
加 A.met (self) 

14 

15 >>> class D(BrGh) 

a def met (self): 

1 A breint tu Dwmety 
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18 
a 
20 
性 生 
ad 
| 
24 
25 
26 
2 
28 
和 29 
30 
| 
4 
33 
34 
35 
36 
加 晶 
3 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 


第 

















B.met (self) 


C.met (self) 


>>> x=D() 
>>> X-met() 
-met 

-met 

-met 


-met 


0 


-met 


>>> class Al(object): 
def met (self): 
print('A.met') 


>>> class B(R) 


def met (self): 
print('B.met') 


super (B, self) .met( ) 


>>> class C(A) 


def met (self): 
print('C.met') 


super(C, self) .met( ) 


>>> class DI(B, 


ee 


def met (self): 
print('D.met') 


super(D, self) .met( ) 


>>> x=D() 
>>> x.met() 
.met 

-met 


met 


NWODO 


.met 


1~20 行 代 码 采用 





调用 一 次 。 


传统 的 直接 调用 父 类 的 同名 方法 ， 无 法 避免 类 A 的 方法 被 重复 调 





。 第 28~45 行 的 代码 则 使 用 了 一 个 特殊 的 super0 方 法 ， 可 以 保证 父 类 的 方法 只 被 并 且 均 被 


8.2.6 新 型 类 的 小 结 
相 较 于 传统 类 ， 新 型 类 支持 了 更 多 特性 和 机 制 ， 有 着 更 多 的 弹性 ， 例 如 可 以 定制 实例 化 
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的 过 程 ， 尤 其 是 在 多 重 继承 的 情况 下 能 避免 传统 类 存在 的 缺陷 ， 所 以 不 同 于 元 类 的 情况 ， 在 
所 有 使 用 类 的 时 候 ， 都 应 当 尽量 使 用 新 型 类 、 避 免 使 用 传统 类 。 在 Python 3.X 中 已 经 不 存在 
传统 类 。 目 前 传统 类 存在 的 意义 主要 是 为 了 保持 之 前 的 Python 代码 的 兼容 性 。 

















号 .-3 本 章 小 结 


本 章 主 要 讨论 了 元 类 和 新 型 类 ， 元 类 是 Python 的 高 级 主题 ， 因 为 在 其 他 计算 机 语言 不 多 
见 ， 所 以 较 难 以 理解 ， 可 以 认为 类 是 元 类 的 实例 。 类 的 定义 实际 就 是 元 类 调用 _new_ 方 法 
来 实例 化 该 类 的 过 程 ， 所 以 元 类 有 着 “ 神 不 知 鬼 不 觉 ” 地 修改 类 的 定义 的 能 力 。 使 用 这 个 能 
力 ， 能 够 让 程序 更 加 灵活 和 方便 ， 不 过 前 提 条 件 是 不 能 因此 让 程序 变 得 复杂 和 难以 理解 。 

相 较 于 传统 类 ， 新 型 类 支持 了 更 多 的 方法 和 属性 ， 更 灵活 ， 更 有 弹性 ， 尤 其 是 在 多 重 继 
承 的 情况 下 ， 新 型 类 的 处 理 方法 更 加 合理 。Python 3.X 版 本 都 只 支持 新 型 类 ， 虽 然 本 文 涉及 
部 分 传统 类 的 概念 ， 但 只 是 为 了 让 读者 在 碰 到 旧版 本 代码 时 有 一 个 基本 的 了 解 。 
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s6 9 音 


第 9 章 
读 代 器 、 生 把 器 和 修 ti 嚣 > 





本 章 将 要 介绍 Python 办 代 器 、 生 成 器 、 修 饰 器 的 内 容 。 连 代 、 生 成 和 修饰 实际 上 都 是 常 
用 的 设计 模式 。 连 代 器 的 设计 模式 最 典型 的 就 是 STL (C++ 标 准 库 ) 中 的 迭代 器 。 在 STL 
中 ， 友 代 器 对 象 是 提供 对 容器 进行 访问 操作 的 对 象 ; 本 Python 中 ， 友 代 器 的 概念 则 不 大 相 

。 修饰 器 模式 是 在 一 个 对 象 的 外 围 创建 一 个 称 为 修饰 器 的 封装 ， 动 态 地 给 这 个 对 象 添加 一 
些 额外 的 功能 ，Python 从 语法 层次 提供 了 一 个 bastion 饰 器 用 法 。 

本 章 的 主要 内 容 是 : 

@ ”迭代 器 的 概念 。 

@@ 生成 器 的 概念 。 

@ 修饰 器 的 应 用 。 


迭代 器 和 生成 器 


友 代 器 和 生成 器 是 Python 中 非常 重要 的 组 成 部 分 。Python 程序 也 可 以 不 使 用 迭代 器 和 生 
成 器 ， 不 过 那 相 当 于 放弃 了 Python 的 一 大 利器 ， 非 常 可 异 


9.1.1 和 返 代 器 的 概念 

在 STL 中 ， 和 迭代 器 实际 上 是 C/C++ 指针 的 包装 ， 用 来 对 特定 的 容器 进行 访问 ， 能 够 用 来 
遍历 STL 容器 中 的 部 分 或 全 部 元 素 。 和 迭代 器 提供 一 些 基本 操作 符 : *、++、==、! =、=。 这 
些 操 作 和 C/C++“ 操 作 array 元 素 ” 时 的 指针 接口 一 致 。 不 同 之 处 在 于 ， 友 代 器 是 一 个 所 谓 
的 smart pointers 〈 智 能 指针 ) ， 具 有 遍历 复杂 数据 结构 的 能 力 。Python 夺 代 器 的 概念 和 STL 
的 迭代 器 有 较 多 不 同 ， 其 概念 超越 容器 的 迭代 器 ， 使 得 用 户 定义 的 类 支持 迭代 。 

在 Python 中， 迭代 器 对 象 需要 支持 _iter 0 和 next0 两 个 方法 。 其 中 ，_ iter _0 返 回 迭 
代 器 自身 ，nextO 返 回 系 列 的 下 一 个 元 素 。 例 子 9.1 是 一 个 支持 迭代 的 类 。 


例子 9.1 支持 迭代 的 类 


>>> class simple range (object): 
































def ”init {selfy num): 


self.num = num 
def iter ‘(self)s 
return self 
def next (self): 
if self.num <= 0: 
raise StopIteration 
tmp = self.num 
self.num -= 1 


return tmp 


>>> a=simple range(5) 


>>> a.next () 
>>> a.next () 
>>> a.next () 
>>> a.next () 
>>> a.next () 


>>> a.next () 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 8, in next 

StopIteration 

>>> 


类 simple_range 是 一 个 迭代 对 象 ， 定 义 了 _iter _0 和 next0 方 法 。 迭 代 对 象 有 一 个 状态 
self_num， 每 次 执行 next0 操 作 都 需要 判断 该 状态 ， 如 果 小 于 等 于 0 就 说 明 友 代 结 束 。 

对 列表 和 元 组 做 for.….in 遍历 操作 的 时 候 ，Python 实际 上 是 通过 列表 和 元 组 的 迭代 对 象 
来 实现 的 。for...in 操作 的 其 实 是 列表 和 元 组 的 迭代 对 象 ， 而 不 是 列表 和 元 组 本 身 ， 例 如 : 

>>> lis=[1,2,3,4,5] 


>>> for x in lis: 


print (x) 
ul 
= 
4 
>>> list iter=lis. iter () 


>>> print (type (list iter)) 


Tsr 


<class "list iteratoc"> 
>>> for x in Ligt Tters 


print (x) 


Wr: 


从 上 面 的 代码 可 以 看 出 ， 列 表 的 _ iter 方法 返回 的 是 一 个 list_iterator 类 型 的 对 象 ， 
for...in 操作 实际 上 作用 的 是 该 迭代 对 象 ， 代 码 for x in lis 操作 实际 上 等 同 于 for x in 
lis._iter 0 操作， 操作 的 过 程 实际 是 通过 _ iter 获得 迭代 器 对 象 ， 不 断 地 调用 迭代 器 对 象 
的 next0 方 法 ， 一 直到 next0 方 法 返回 StopIteration 异常 。 

















9.1.2 生成 器 的 概念 
对 于 一 个 类 来 说 ， 支 持 线性 遍历 操作 可 以 通过 _iter “或 next0 方 法 来 实现 ， 不 过 这 种 实 
现 方法 不 够 灵活 、 方 便 ， 特 别 是 对 于 一 个 函数 来 说 ， 函 数 没 有 属性 变量 去 存放 状态 ， 所 以 让 
函数 用 这 种 方法 来 支持 线性 遍历 是 不 可 能 的 。 不 过 Python 3.X 支持 使 用 yield 生成 器 的 方法 
来 进行 线性 遍历 。 
在 Python 中 ，yield 语句 仅 用 以 定义 生成 器 函数 ， 而 且 只 能 出 现在 生成 器 函数 内 ; 在 函 
数 定义 中 使 用 yield 语句 的 充分 理由 是 想 实现 一 个 生成 器 函数 而 不 是 普通 函数 ， 当 生成 器 函数 
被 调用 时 返回 一 个 生成 器 。 

生成 器 的 概念 源 自 协同 工作 的 程序 ， 比 如 消费 者 和 生产 者 模型 ，Python 生成 器 的 概念 就 
是 其 中 的 生产 者 Producer 角色 (数据 提供 者 的 意思 ) ， 每 次 生成 器 程序 就 等 在 那里 ， 一 旦 用 
户 ( 消 费 者 Consumer 角色 ) 调用 next(0 方 法 ， 生 成 就 继续 向 下 执行 一 步 ， 然 后 把 当前 遇 到 的 
内 部 数据 的 Node 放 到 一 个 消费 者 用 户 能 够 看 到 的 公用 的 缓冲 区 〈 比 如 ， 直 接 放 到 消费 者 线 
程 栈 里 面 的 局 部 变量 ) 里 ， 然 后 停 下 来 等 待 (wait) 。 最 后 消费 者 用 户 从 缓冲 区 里 获得 
Node。 

例如 ， 使 用 Python 的 yield 来 实现 一 个 无 限 数据 的 生成 器 : 


>>> def infinite() : 









































n= 

While 1: 
yield n 
n= 


>>> ge=infinite() 


>>> next (ge) 
1 
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>>> next (ge) 
2 
>>> next (ge) 
地 


>>> next (ge) 


ca # 后 面 可 以 一 直 执行 下 去 

上 面 的 代码 定义 了 一 个 生成 器 函数 infinite0， 关 键 是 yield n 表达 式 。 生 成 器 就 如 同 数据 
提供 者 ， 只 有 在 用 户 调用 next0 方 法 时 ， 生 成 器 才 将 内 部 数据 的 Node 提供 出 来 并 停 下 来 进入 
wait 状态 。yield n 表达 式 的 作用 就 是 生成 器 的 这 个 功能 。 

yield 表达 式 的 功能 可 以 分 成 两 部 分 : 

@ 将 n 返 回 给 用 户 。 

@@ 进入 wait and get 状态 ， 可 以 理解 为 程序 在 这 个 位 置 暂停 ， 当 消费 者 再 次 调用 next() 

方法 的 时 候 ， 程 序 才 会 在 这 个 位 置 激活 。 

生成 器 和 迭代 器 很 相似 ， 其 实 它 们 都 是 消费 者 和 生产 者 模型 ， 都 是 用 户 通过 next0 方 法 
来 获得 数据 ， 而 生成 器 和 迭代 器 都 是 只 有 用 户 在 调用 nextO 时 才 返 回 数 据 。 不 同 的 是 迭代 器 
是 通过 自己 实现 next0 方 法 来 逐步 返回 数据 ， 而 生成 器 则 使 用 yield 自动 完成 了 提供 数据 并 且 
让 程序 进入 wait 状态 ， 等 待 用 户 的 进一步 操作 ， 所 以 生成 器 更 加 灵活 和 方便 。 





























9.1.3 生成 器 yield 语法 


1. yield 是 表达 式 
在 Python 3.X 中 ，yield 成 为 表达 式 ， 不 再 是 语句 ， 但 是 必须 放 在 函数 内 部 ， 如 果 写 成 语 
名 的 形式 ， 实 际 上 返回 值 被 扔 掉 了 ， 例 如 : 


yield n 
x=yield n 


yield 是 表达 式 ， 可 以 和 其 他 表达 式 相 组 合 ， 所 以 下 列 语句 都 是 合法 的 : 


Z=x+y* (yield 2) 
R=b+c+d+yield c 


2. 生 成 器 的 next() 方 法 

当 用 户 调用 next0 方 法 ， 执 行 到 yield 表达 式 时 ， 先 返回 n， 然 后 程序 进入 wait 状态 ， 只 
有 当下 一 次 执行 nextO 时 才 会 从 此 处 恢复 ， 继 续 执 行 下 面 的 代码 ， 一 直 执行 到 下 一 个 yield 代 
码 。 如 果 没 有 一 个 yield 代码 ， 就 抛 出 StopIteration 异常 ， 例 如 : 


>>> def test(): 




















print(”l step”) 
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Yield 1 
print("2 step”) 
Yield 2 
print("3 end") 


>>> h=test () 

>>> next (h) 

1 step 

uh 

>>> next (h) 

2 step 

2 

>>> next (h) 

3 nd 

Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 


StopIteration 


3. 生成 器 的 send(msg) 方 法 

执行 一 个 send(msg) 会 恢复 生成 器 的 运行 ， 然 后 发 送 的 值 将 成 为 当前 yield 表达 式 的 返回 
值 。 程 序 恢复 运行 之 后 ， 继 续 执 行 下 面 的 代码 ， 一 直 执 行 到 下 一 个 yield 代码 ， 如 果 没 有 一 个 
yield 代码 ， 就 抛 出 StopIteration 异常 。 

当 使 用 send(msg) 发 送 消息 给 生成 器 时 ，wait_and_get 会 检测 到 这 个 信息 ， 然 后 唤醒 生 
成 器 ， 同 时 该 方法 获取 msg 并 赋值 给 x。 理 解 了 这 一 点 ， 例 子 9.2 的 代码 也 就 不 难 理解 了 。 
例子 9.2 生成 器 send() 方 法 的 应 用 


01 >>> def test(): 





| print("step 1"} 

Oa re x = yield 1 

| 全 本 天 print('step 2', 'x=', Xx) 
1 Y = yield 2 

1 print('step 3', 'y=', y) 
07 


08 >>> g=test() 
09 >>> next (g) 
10 step 1 

ln 

12 >>> g.send(5) 
Tosten 2 m5 
bh. 

15 >>> g.send(9) 
a 
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17 Traceback (most recent call last) : 
18 File "<stdio>", line 1l, in <module> 
19 StopIteration 

0 


例子 9.2 中 的 函数 test 可 以 转换 成 如 下 代码 : 


>>>°deFf test()s 

Print('step 1°') 
put (1) 

x = wait and get() 
prime( step 277 y= x) 
put (2) 

Y = wait and get() 
print('step 3', 'y="', y) 

在 例子 9.2 中 ， 第 一 次 调用 next0 方 法 的 时 候 (代码 第 9 行 ) ， 执 行 到 第 一 个 
wait_and_get 处 时 生成 器 进入 wait 状态 并 打印 step 1 和 1。 接 着 在 第 12 行 调用 send0 方 法 的 
时 候 从 第 一 个 wait_and_get 处 启动 生成 器 ， 并 把 send() 方 法 的 参数 5 赋 给 变量 x。 然 后 继续 执 
行 下 面 的 代码 ， 一 直 执行 到 第 二 个 wait_ and_get 处 ， 生 成 器 又 进入 wait 状态 。 当 在 第 15 行 
再 一 次 调用 send0 方 法 的 时 候 ， 生 成 器 从 第 二 个 wait_ and_get 处 启动 ， 并 把 send0 方 法 的 参数 
9 赋 给 变量 y， 因 为 后 面 没 有 yield 表达 式 了 ， 所 以 生成 器 抛 出 StopIteration 异常 。 

需要 注意 的 是 ， 第 一 个 调用 要 么 使 用 nextD)， 要 么 使 用 send(None)， 不 能 使 用 send0 来 发 
送 一 个 非 None 的 值 ， 原 因 是 非 None 值 是 发 给 wait_and_get 的 。 一 开始 程序 并 没有 停 在 
wait_and_get 代码 处 ， 只 有 先 使 用 next 或 者 send(None) 方法 以 后 才 会 停 在 wait_and_get 处 ， 
这 时 才能 使 用 send 发 送 一 个 非 None 值 ， 例 如 : 


>>> h=test() 
>>> h.send(1) 
Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 
TypeError: can't send non-None value to a just-started generator 
>>> h.send (None) 
step 1 


4. 生成 器 的 throw( 广 法 


生成 器 提供 throw0 方法 从 生成 器 内 部 来 引发 异常 ， 从 而 控制 生成 器 的 执行 。 例 如 ， 可 
以 向 生成 器 发 送 一 个 GeneratorExit 异常 : 


>>> h.throw (GeneratorExit) 





Traceback (most recent call last): 
File "<pyshell#122>", line 1, in <module> 
h.throw (GeneratorExit) 
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File "<pyshell#113>", line 3, in test 
yield 1 


GeneratorExit 

GeneratorExit 是 Python 2.5 增加 的 异常 ， 作 用 是 让 生成 器 有 机 会 执行 一 些 退出 时 的 清理 
工作 。 

5. 关闭 生成 器 

生成 器 提供 了 一 个 close0 方法 来 关闭 生成 器 。 当 使 用 close0 方法 时 ， 生 成 器 会 直接 从 
当前 状态 退出 ， 再 使 用 nextO 方法 会 得 到 一 个 StopIteration 异常 ， 例 如 : 


>>> next (h) 












































step 1 
1 
>>> h.close() 
GE 
Traceback (most recent call last): 
File "<pyshell#133>", line 1, in <module> 
next (h) 
StopIteration 
实际 上 close0 方 法 也 是 通过 throw0 方 法 发 送 GeneratorExit 异常 来 关闭 生成 器 的 ， 其 实现 
相当 于 如 下 代码 : 
>>> def closel(self): 
下 工本 2 
self.throw (GeneratorExit) 
except (GeneratorExit, StopIteration): 
pass 
else: 


raise RuntimeError ("generator ignored GeneratorExit") 


9.1.4 生成 器 的 用 途 


1. 相对 于 列表 、 元 组 ， 生 成 器 更 节省 内 存 


生成 器 一 次 产生 一 个 数据 项 ， 直 到 没有 为 止 ， 在 for 循环 中 就 可 以 对 它 进 行 循环 处 理 。 
相对 于 列表 或 者 元 组 ， 生 成 器 一 次 只 返回 一 个 数据 项 ， 占 用 内 存 更 少 ， 但 是 需要 记 住 当前 的 
状态 ， 以 便 返 回 下 一 个 数据 项 。 生 成 器 是 一 个 有 next0 方 法 的 对 象 。 序 列 类 型 则 保存 了 所 有 
的 数据 项 ， 它 们 的 访问 是 通过 索引 进行 的 。 

例如 ， 求 公元 1900~2000 年 的 所 有 半年 ， 可 以 使 用 下 面 的 代码 : 


>>> def getyear1astart7enahjs 




















year=[] 
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for i in Frange (startrend+1) : 
if i%4==0 and i$%100!=0: 
year.append (i) 
elif i%400==0: 
year.append (i) 
return year 


>>> print (getyear (1900,2000)) 
[1904, 1908, 1912, 1916, 1920, 1924, 1928, 1932, 1936, 1940, 1944, 1948, 
1952, 1956, 1960, 1964, 1968, 1972, 1976, 1980, 1984, 1988, 1992, 1996, 2000] 


上 面 的 getyear0 函 数 使 用 列表 year 来 存放 国 年 的 年 份 ， 如 果 结 果 值 很 多 ， 列 表 list 就 要 
消耗 较 大 的 内 存 。 如 果 使 用 生成 器 ， 每 次 next0 方 法 获得 一 个 年 份 ， 相 对 于 列表 能 更 节省 内 
存 ， 例 如 : 


>>> def getyear(start,end): 





for i in range(start,end+1): 
if i%4==0 and i%100!=0: 
yield i 
elif i%400 
yield i 





>>> year gen=getyear (1900,2000) 
>>> next (year_gen) 

1904 

>>> next (year_gen) 

1908 

>>> next (year_ gen) 

了 192 

>>> next (year_ gen) 

1916 


上 面 的 代码 将 getyear0 改 成 生成 器 结构 ， 因 为 yield 每 次 都 返回 一 个 结果 ， 所 以 更 节省 内 存 。 

2 . 线性 遍历 访问 数据 

生成 器 可 以 将 非 线 性 化 的 处 理 转 换 成 线性 化 的 方式 ， 典 型 的 例子 就 是 对 二 又 树 的 访问 。 
传统 的 方法 是 使 用 递归 函数 来 访问 和 处 理 ， 例 如 : 


def deal tree (node): 




















if not node: 
return 
if node.leftnode: 
deal tree (node.leftnode) 


process (node) 
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if node.rightnode: 


deal tree (node.rightnode) 


上 面 的 deal tree0 方 法 是 一 个 递归 函数 ， 为 了 处 理 该 数 的 每 一 个 节点 ， 需 要 将 处 理 方法 











process0 放 到 访问 的 过 程 中 ， 既 容易 出 错 ， 也 不 清晰 。 比 较 好 的 方法 是 先 将 树 的 节点 访问 转 
换 成 线性 ， 代 码 如 下 : 











def deal tree (node) : 
if not node: 
return 
if node.leftnode: 
for i in walk tree (node.leftnode): 
yield i 
yield node 
if node.rightnode: 
for i in walk tree (node.rightnode) : 


yield i 
将 树 的 访问 转换 成 线性 之 后 ， 可 以 在 deal_tree0 函 数 的 外 面 遍 历 每 一 个 节点 ， 例 如 : 


for node in walk tree (oot) : 


Process (node) 


这 样 一 来 ， 处 理 每 个 节点 的 过 程 不 需要 放 到 访问 每 个 节点 的 代码 中 去 ， 更 加 清晰 明了 。 


.2 修饰 器 








修饰 器 也 叫 修饰 器 ， 是 用 于 拓展 原来 函数 功能 的 一 种 函数 。 这 个 函数 的 特殊 之 处 在 于 返 


回 值 是 一 个 函数 。 


9.2.1 修饰 器 模式 

















等 ) 中 的 山 丘 是 一 个 非常 厉害 的 角色 ， 经 常 能 够 一 锤 击毙 敌人 的 英雄 和 士兵 ， 因 此 被 誉 为 英 
雄 杀手 。 既 然 是 英雄 杀手 ， 就 时 常 需要 冲锋 陷 阵 ， 在 作战 过 程 中 自然 会 面临 敌人 的 围攻 ， 此 


修饰 器 (Decorator) 的 概念 来 自 于 设计 模式 ， 实 际 上 是 设计 模式 里 很 重要 的 一 种 ， 这 里 
即时 战略 游戏 中 兵种 的 装甲 强度 来 理解 它 ， 举 一 个 典型 的 例子 ， 魔 兽 争 霸 〈 或 冰峰 王座 











时 我 们 有 多 种 方式 来 提升 山 丘 的 抗击 打 能 


@ 升级 护 甲 。 

”通过 魔法 师 给 他 施加 增加 防护 的 魔法 。 

@ ”等 级 到 6 时 使 用 终极 魔法 来 大 幅度 提高 装甲 的 防护 。 
@ ”使 用 无 敌 的 魔法 瓶 ， 在 规定 时 间 内 谁 都 拿 他 没 匆 。 
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虽然 不 知道 暴雪 公司 的 工程 师 具 体 是 如 何 实现 这 种 功能 设计 的 ， 但 绝对 不 会 是 准备 多 个 
具有 不 同 防御 等 级 的 山 丘 对 象 来 供 程序 调用 ， 如 Shanqiul、Shanqiu2、…… 、ShanqiuN， 这 
样 设计 笨 抽 、 代 码 繁多 ， 如 果 游 戏 中 其 他 兵种 的 装甲 、 攻 击 力 的 设计 都 是 如 此 ， 那 么 代码 的 
复杂 程度 就 难以 接受 了 。 

修饰 器 在 这 种 情况 下 就 可 以 发 挥 作 用 了 : 在 普通 装甲 升级 时 ， 使 用 普通 装甲 升级 的 修饰 
器 ; 在 使 用 终极 魔法 时 ， 使 用 终极 魔法 装甲 升级 的 修饰 器 。 设 计 的 目的 是 为 了 能 够 在 运行 时 
而 不 是 编译 期 来 动态 改变 对 象 的 状态 ， 使 用 组 合 的 方式 来 增 减 Decorator， 而 不 是 去 修改 原 有 
的 代码 来 满足 业务 的 需要 ， 以 利于 程序 的 扩展 。 

修饰 器 模式 是 针对 Java 语言 的 。 为 了 灵活 地 使 用 组 合 的 方式 来 增 减 Decorator，Java 语 
言 需 要 使 用 较为 复杂 的 类 对 象 结构 才能 达到 这 种 效果 。Python 从 语法 层次 上 实现 了 使 用 组 合 
的 方式 来 增 减 Decorator 的 功能 ， 相 对 于 Java， 使 用 起 来 更 加 方便 和 灵活 。 





























9.2.2 Python 修饰 器 

Python 从 语法 层次 上 支持 了 Decorator 模式 的 灵活 调用 ， 主 要 有 以 下 两 种 方式 。 

(1) 不 带 参数 的 Decorator 

不 带 参数 的 Decorator 的 语法 形式 如 下 : 

@A 

def 下 (): 

这 种 形式 是 Decorator 不 带 参数 的 写法 。 最 终 Python 会 处 理 为 : 

E = R(f) 

这 相当 于 在 函数 f 上 加 一 个 修饰 器 A ， 修 饰 器 的 添加 是 不 受 限制 的 ， 可 以 多 层次 使 用 ， 
例如 : 

@a 

@B 


@c 
def 下 (NE 





Python 会 将 这 些 处 理 为 : 
f= A(B(C(EY)) 


(2) 带 参数 的 Decorator 
带 参数 的 Decorator 的 语法 形式 如 下 : 


@A(args) 
es 


165 


这 种 形式 是 Decorator 带 参 数 的 写法 ，Python 会 处 理 为 : 


de 0 es 
_deco = Al(args) 
f= decolf) 


Python 会 先 执 行 A(args) 得 到 一 个 decorator0 函 数 ， 然 后 按 与 第 1 种 一 样 的 方式 进行 处 理 。 


9.2.3 ”修饰 器 函数 的 定义 
每 一 个 Decorator 都 对 应 有 相应 的 函数 ， 要 对 后 面 的 函数 进行 处 理 ， 要 么 返回 原来 的 函数 
对 象 ， 要 么 返回 一 个 新 的 函数 对 象 。 





根据 修饰 器 不 同 的 调用 方法 ， 修 饰 器 函数 也 需要 对 应 不 同 的 定义 ， 说 明 如 下 : 


(1) 第 1 种 调用 的 函数 定义 
一 般 这 种 情况 下 ， 函 数 的 定义 如 下 : 
def Al(func): 
# 处 理 func 
# 如 func.attr='decorated' 
return func 
Q@RA 
def f(args):pass 
对 func 处 理 后 ， 仍 返回 原 函 数 对 象 。 这 个 decorator() 函数 的 参数 为 要 处 理 的 函数 。 如 果 
要 返回 一 个 新 的 函数 ， 可 以 为 : 
def Al(func): 
def new_func (args) : 
# 做 一 些 额外 的 工作 
return func (args) # 调 用 原 函 数 继续 进行 处 理 
return new_func 
@A 
def f(args):pass 


注意 ，new_func 的 定义 形式 要 与 待 处 理 的 函数 相同 ， 因 此 还 可 以 写 得 通用 一 


上 





def Al(func): 
def new func(*args, **argkw): 
# 做 一 些 额 外 的 工作 
return func(*args，**argkw) ## 调 用 原 函 数 继续 进行 处 理 
return new func 


@a 
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def f(args):pass 

可 以 看 出 ， 在 A 中 定义 了 新 的 函数 ， 然 后 A 返回 这 个 新 的 函数 。 在 新 函数 中 ， 先 处 理 一 
些 事情 ， 比 如 对 参数 进行 检查 或 做 一 些 其 他 的 工作 ， 再 调 原始 的 函数 进行 处 理 。 这 种 模式 可 
以 看 成 ， 在 调用 函数 前 ， 通 过 Decorator 技术 进行 一 些 处 理 。 如 果 想 在 调用 函数 之 后 进行 一 些 
处 理 或 者 再 进一步 ， 可 以 根据 函数 的 返回 值 进行 一 些 处 理 : 























def Al(func): 
def new func(*args, **argkw): 
result = func(*args，**argkw) # 调 用 原 函 数 继续 进行 处 理 
if result: 
# 做 一 些 额外 的 工作 
return new result 
else: 
return result 
return new func 
@A 
def f(args):pass 


(2) 第 2 种 调用 对 应 的 函数 

针对 第 2 种 调用 形式 ， 如 果 Decorator 在 调用 时 使 用 了 参数 ， 那 么 decorator() 函数 只 会 
使 用 这 些 参数 进行 调用 ， 因 此 需要 返回 一 个 新 的 decorator() 函数 ， 这 样 就 与 第 一 种 形式 一 致 
ys 


def Al(larg): 
def Al(func): 
def new_func (args) : 
# 做 一 些 额 外 的 工作 
return func (args) 
return new_func 
return A 
@A (arg) 
def f(args):pass 


可 以 看 出 A(arg) 返回 了 一 个 新 的 decorator _A。 














9.2.4 修饰 器 的 应 用 
Decorator 的 魔力 就 是 它 可 以 对 所 修饰 的 函数 进行 加 工 ， 这 种 加 工 是 在 不 改变 原来 函数 代 
码 的 情况 下 进行 的 ， 并 且 修 饰 函数 可 以 多 层次 任意 组 合 和 添加 ， 和 第 8 章 所 介绍 的 面向 方面 
的 编程 颇 有 相通 之 处 。 
使 用 Decorator 可 以 增加 程序 的 灵活 性 ， 减 少 耦 合 度 ， 适 合 使 用 在 用 户 登录 检查 、 日 志 处 
理 等 方面 。 这 种 通过 函数 之 间 相 互 结合 的 方式 更 符合 搭 积木 的 要 求 ， 可 以 把 函数 功能 进一步 分 
解 ， 使 得 功能 足够 简单 和 单一 ， 然 后 通过 Decorator 的 机 制 灵活 地 把 相关 的 函数 串 成 一 个 串 。 
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例如 ， 


























NF 











一 个 多 用 户 使 用 的 程序 会 有 很 多 功能 跟 权 限 相关 ， 用 户 的 权限 各 有 不 同 ， 传 统 的 
方法 是 建立 一 个 权限 角色 类 ， 然 后 每 个 用 户 的 权限 角色 都 不 相同 ， 在 各 个 功能 模块 里 对 用 户 
权限 进行 管理 ， 但 是 这 种 方法 不 但 容易 出 错 ， 而 且 对 管理 、 修 改 都 带 来 了 很 多 有 麻烦。 如果 采 
































Decorator， 就 可 以 解决 这 个 问题 。 


Decorator， 关 键 之 处 是 如 何 定义 一 个 decorator() 函数 ， 通 过 decorator0 函数 的 调 











用 来 处 理 上 

















户 权限 的 逻辑 ， 可 以 先 定 义 权限 管理 的 类 。 例 子 9.3 是 decorator() 函数 定义 的 一 
个 简单 例子 。 


例子 9.3 decorator() 函 数 的 定义 





01 >>>class Permission: 
def nit (seLf)” 


pass 


02 
03 
04 
05 
06 
07 
08 
09 
10 
TE 
2 
13 
14 
15 
16 
下 过 
18 
本 
20 
2 
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def needUserPermission(self, function): 


def 


new_ func(*args, **kwargs): 
obj = args[0] 
if obj.user.hasUserPermission(): 
ret = function(*args, **kwargs) 
else: 
ret = "No User Permission™" 


return ret 


return new_ func 


def needAdminPermission(self, function): 


def new func(*args, **kwargs): 


obj = args[0] 


if obj.user.hasAdminPermission(): 


ret = function(*args, **kwargs) 


eses 


ret = "No Admin Permission" 


return ret 


return new func 


例子 9.3 定义 了 一 个 类 Permission， 提 供 了 两 个 不 同 的 decorator() 函数 : 一 个 是 针对 管 


理 员 权限 


9， 一 个 是 针 


对 普通 用 户 权限 的 。 这 个 函数 定义 的 关键 是 返回 值 的 处 理 《〈《 代 码 第 








7~11 行 ) 。 当 经 过 hasUserPermission 或 者 hasAdminPermission 判断 一 个 用 户 拥 有 对 应 的 权限 
时 ，decorator() 函 数 会 返 











要 使 








Permission f 


回调 用 以 它 为 修饰 器 的 函数 ， 否 则 返回 一 个 告警 提示 。 
FE 为 修饰 器 ， 实 现 要 实例 化 该 类 : 





Permission = Permission() 


然后 ， 在 处 理 实际 业务 代码 的 时 候 ， 只 要 为 需要 的 功能 加 上 实际 的 权限 限制 Decorator 就 


可 以 了 : 
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class Action: 


def aa (selfr name): 
self.user = UserService.newUser (name) 
@permission.needUserPermission # 需 要 用 户 权限 


def listAllPoints (self): 

return “TODO: do real list all points” 
@permission.needAdminPermission # 需 要 管理 员 权 限 
def setup (selLft) : 

return "TODO: do real setup" 


对 业务 方法 的 调用 跟 以 前 没有 任何 区 别 : 

















在 name == ”main _": 





action = Action('user') 
print (action.listAllPoints()) # 将 会 执行 真正 的 业务 代码 
print (action.setup()) # 将 会 返回 “No Admin Permission” 
从 这 个 例子 可 以 看 出 ， 相 对 于 传统 方法 ，Decorator 使 用 起 来 还 是 拥有 很 大 优势 的 ， 可 以 
使 用 户 权 限 检查 这 些 琐碎 的 工作 和 业务 调用 代码 相 和 剥离 ， 并 且 能 够 检测 函数 方便 地 修饰 到 业 
务 罗 辑 代码 之 上 。 








TsR 4 
外-3 本 章 小 结 

本 章 主要 介绍 了 迭代 器 、 生 成 器 、 修 饰 器 ， 其 中 生成 器 、 修 饰 器 都 是 Python 3.X 支持 的 
特性 。 在 Python 社区 中 ， 有 不 少 人 认为 本 章 的 这 些 概念 带 有 过 多 的 函数 式 的 特性 ， 影 响 了 
Python 语言 简单 实用 的 风格 。 不 过 仔细 了 解 这 3 个 概念 之 后 ， 就 会 发 现 这 3 个 语言 特性 在 某 
些 情况 下 确实 对 编程 很 有 帮助 ， 能 够 帮助 程序 员 更 快 更 好 地 完成 某 些 功能 。 
阅读 完 本章 ， 请 读者 思考 下 列 问题 : 
@@ 生成 器 的 特点 是 什么 ? 在 什么 情况 下 应 该 使 用 生成 器 ? 
@@ ”修饰 器 是 什么 ? 它 的 优点 在 哪些 方面 ? 
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我 们 在 饭店 聚餐 时 ， 多 个 人 同时 吃 一 道 菜 的 时 候 容易 发 生 争 抢 ， 例 如 上 了 一 个 好 菜 ， 两 
个 人 同时 夹 这 个 菜 ， 一 个 人 刚 伸 出 筷子 ， 结 果 伸 到 的 时 候 已 经 被 夹 走 了 …… 怎 么 办 呢 ? 此 时 
就 必须 等 一 个 人 夹 完 一 口 菜 之 后 ， 另 外 一 个 人 再 夹 菜 ， 也 就 是 说 资源 共享 会 发 生 冲 突 争 抢 ， 
这 就 是 多 线程 争 抢 资源 的 问题 。 

线程 是 一 个 单独 的 程序 流程 。 多 线程 是 指 一 个 程序 可 以 同时 运行 多 个 任务 ， 每 个 任务 由 
一 个 单独 的 线程 来 完成 。 如 果 程 序 被 设置 为 多 线程 ， 可 以 提高 程序 运行 的 效率 和 处 理 速度 。 
可 以 通过 控制 线程 来 控制 程序 的 运行 ， 如 操作 线程 的 阻塞 、 同 步 等 。 

本 章 的 主要 内 容 是 : 


@ 线程 的 概念 。 
@ 多 线程 机 制 。 
@ ”如 何 进 行 多 线程 编程 。 
多 线程 的 慨 念 不 太 好 理解 ， 可 以 想起 在 生活 中 当 资源 共享 出 现 冲突 的 时 候 怎么 办 ， 除 了 | 
上 面 说 的 夹 菜 ， 还 有 公交 车 上 的 座位 、 多 人 在 雨中 叫 出 租车 等 。 : 


1 0 】 线程 的 概念 


多 个 线程 可 以 同时 在 一 个 程序 中 运行 ， 并 且 每 一 个 线程 完成 不 同 的 任务 。 

传统 的 程序 设计 语言 同一 时 刻 只 能 执行 单 任务 操作 ， 效 率 非常 低 。 比 如 ， 如 果 网 络 程序 
在 接收 数据 时 发 生 阻 塞 〈 管 道 被 堵 住 了 ) ， 只 能 等 到 程序 接收 数据 之 后 才能 继续 运行 。 随 着 
Intemet 的 飞速 发 展 ， 这 种 单 任务 运行 的 状况 越 来 越 不 被 接受 ， 如 果 网 络 接收 数据 阻塞 ， 后 台 
服务 程序 就 会 一 直 处 于 等 待 状态 而 不 能 继续 任何 操作 ， 这 种 阻塞 情况 经 常 发 生 ， 这 时 的 CPU 
资源 完全 处 于 闲置 状况 。 

多 线程 实现 后 台 服 务 程序 可 以 同时 处 理 多 个 任务 ， 并 不 发 生 阻塞 现象 。 多 线程 程序 设计 


最 大 的 特点 就 是 能 够 提高 程序 执行 效率 和 处 理 速 度 。Python 程序 可 同时 并 行 运行 多 个 相对 独 
立 的 线程 。 例 如 ， 在 开发 一 个 Email 系统 时 ， 通 常 需要 创建 一 个 线程 来 接收 数据 ， 另 一 个 线 
程 发 送 数据 ， 即 使 发 送 线程 在 接收 数据 时 被 阻塞 ， 接 收 数据 线程 仍然 可 以 运行 。 

线程 (Thread) 是 CPU 分 配 资源 的 基本 单位 。 一 个 程序 开始 运行 ， 就 变 成 了 一 个 进程 ， 
而 一 个 进程 相当 于 一 个 或 者 多 个 线程 。 当 没有 多 线程 编程 时 ， 一 个 进程 也 是 一 个 主线 程 ， 当 
有 多 线程 编程 时 ， 一 个 进程 包含 多 个 线程 (包括 主线 程 》。 使 用 线程 可 以 实现 程序 的 并 发 。 








创建 多 线程 


Python 3.X 实现 多 线程 的 是 threading 模块 ， 使 用 它 可 以 创建 多 线程 程序 ， 并 且 在 多 线程 
间 进 行 同步 和 通信 。 因 为 是 一 个 模块 ， 所 以 使 用 前 必须 先导 入 : 

import threading 

Python 支持 两 种 创建 多 线程 的 方式 : 


@ 通过 threading.Thread0 创 建 。 
@ 通过 继承 threading.Thread 类 创建 。 


10.2.1 通过 threading.Thread() 创 建 

Thread0) 的 语法 如 下 : 

threading.Thread (group=None, target=None, name=None, args=(), kwargs={}, *, 
daemon=None) 

@ ”group: 必须 为 None， 与 ThreadGroup 类 相关 ， 一 般 不 使 用 。 

@ target: 线程 调用 的 对 象 ， 就 是 目标 函数 。 

@ name: 为 线程 起 个 名 字 。 默 认 是 Thread-x，x 是 序号 ， 由 1 开始 ， 第 一 个 创建 的 线 

程 名 字 就 是 Thread-1。 

@。 args: 为 目标 函数 传递 实 参 ， 元 组 。 

@ kwargs: 为 目标 函数 传递 关键 字 参 数 ， 字 典 。 

@ daemon: 用 来 设置 线程 是 否 随 主线 程 退出 而 退出 。 

参数 虽然 很 多 ， 但 是 实际 常用 的 是 target 和 args， 可 以 用 例子 10.1 来 做 演示 。 
例子 10.1 Thread() 的 用 法 


01 import threading # 导 入 模块 

02 

03 def test(x,y): # 定 义 测试 函数 
04 for i in range (XrY) : 

os print (i) 
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06 threadl = threading.Thread (name='tl1',target=test,args=(1,10)) 
07 thread2 = threading.Thread (name='t2',target=test,args=(11,20)) 
08 threadl.start() # 启 动 线程 1 

09 thread2.start() # 启 动 线程 2 


第 8-9 行 的 start0 函 数 用 来 启动 线程 。 如 果 按 照 先 执行 一 段 代 码 再 执行 一 段 代码 的 传统 
形式 ， 那 么 上 述 代 码 应 该 是 先 输出 1~10 再 输出 11~20， 但 是 运行 程序 后 效果 却 如 图 10.1 所 
示 。 





nnn RESTART，D:/thread1.py ee 


图 10.1 运行 结果 1 
再 运行 一 次 ， 发 现 结果 变 了 〔 见 图 10.2) 。 


nn RESTART: D:/threadl. py ========================== 


图 10.2 运行 结果 2 


这 是 因为 两 个 线程 会 并 发 运行 ， 所 以 结果 不 一 定 每 次 都 是 顺序 的 1~10， 这 是 根据 CPU 
给 两 个 线程 分 配 的 时 间 片 段 来 决定 的 。 多 运行 几 次 代码 ， 就 会 发 现 每 次 效果 都 有 所 不 同 。 


10.2.2 ”通过 继承 threading.Thread 类 创建 


threading.Thread 是 一 个 类 ， 可 以 继承 。 例 子 10.2 使 用 单 继承 的 方式 创建 一 个 属于 自己 的 
类 。 


例子 10.2 单 继承 的 方式 


01 import threading 








02 

03 class mythread(threading.Thread): # 继 承 threading.Thread 类 
04 def runl(self): 

05 Eon i Ln cangetlr Los 
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06 print (i) 

07 

08 threadl = mythread () 7 
09 thread2 = mythread () 7 
10 threadl.start() 

11 thread2.start() 


第 3 行 自 定义 一 个 类 继承 自 threading.Thread， 然 后 重 写 父 类 的 run() 方 法 ， 会 在 线程 启动 
时 执行 start0) 自动 执行 。 如 果 把 第 10~11 行 的 start0 换 为 ran0， 就 会 发 现 rn0 仅 仅 是 被 











当 作 一 个 普通 的 函数 使 用 。 只 有 在 线程 start 时 ， 它 才 是 多 线程 的 一 种 调用 函数 。 











10.3 主 9 程 

在 Python 中 ， 主 线程 是 第 一 个 启动 的 线程 。 我 们 需要 了 解 两 个 概念 : 

@。 父 线程 ; 如 果 线 程 A 中 启动 了 一 个 线程 B， 那 么 A 就 是 B 的 父 线程 。 

@ 子 线 程 : 如 果 线 程 A 中 启动 了 一 个 线程 B， 那 么 B 就 是 A 的 子 线程 。 

创建 线程 时 有 一 个 daemon 属性 ， 可 以 用 来 判断 主线 程 。 当 daemon 设置 为 False 时 ， 子 
线程 不 会 随 主线 程 退 出 而 退出 ， 主 线程 会 一 直 等 着 子 线程 执行 完 。 当 daemon 设置 为 True 
时 ， 当 主线 程 结束 ， 其 他 子 线程 就 会 被 强制 结束 。 

使 用 daemon 属性 时 有 以 下 几 个 注意 事项 : 

@@ daemon 属性 必须 在 start0 之 前 设置 ， 否 则 会 引发 RuntimeError 异常 。 

@ 每 个 线程 都 有 daemon 属性 ， 可 以 显 式 设置 ， 也 可 以 不 设置 ( 取 默 认 值 None) 。 

@@ ”如 果子 线程 不 设置 daemon 属性 ， 就 取 当 前 线程 的 daemon 来 设置 。 子 线程 继承 子 线 

程 的 daemon 值 ， 作 用 和 设置 None 一 样 。 
@ ”从 主线 程 创建 的 所 有 线程 不 设置 daemon 属性 ， 默 认 都 是 daemon=False。 


为 了 演示 主线 程 的 例子 ， 我 们 需要 学 习 一 个 time 模块 中 的 sleep0 函 数 〈 用 于 推迟 线程 的 
执行 ， 默 认 时 间 是 秒 ) 。 下 面 引 入 time 模块 来 演示 例子 10.3。 


例子 10.3 主线 程 的 例子 


01 import time 

















02 import threading 
03 


i 


04 def test() : 


05 time-sleep(10) # 等 待 10 毫秒 
06 for i in range(10): 

07 print (i) 

08 


09 threadl= threading.Thread (target=test, daemon=False) 
10 threadl.start() 


12 ”print (' 主 线程 完成 了 ') 
述 代码 的 执行 结果 如 图 10.3 所 示 。 


RESTART: D: \threadl.py 





图 10.3 ”推迟 线程 的 执行 


当主 线程 完毕 时 ， 子 线程 依然 会 执行 ， 就 是 输出 0-9。 如 果 将 第 9 行 的 daemon=False 改 
为 daemon=Trme， 那 么 程序 应 该 只 输出 “ 全 完成 了 ”， 因 为 主线 程 完 成 后 会 强制 子 线程 
但 实际 效果 却 与 图 10.3 一 致 ， 这 又 是 为 什么 呢 ? 

原来 这 样 的 测试 并 不 适用 于 IDLE 环境 中 的 交互 模式 或 脚本 运行 模式 ， 因 为 在 该 环境 中 
的 主 全 程 只 有 在 退出 Python IDLE 时 才 终 止 ， 所 以 本 例 要 换 一 种 测试 方法 来 测试 
daemon=True 的 情况 。 将 上 述 代码 保存 为 thread1.py， 然 后 打开 命令 行 ， 执 行 下 列 命令 : 





Python threadl.py 
效果 如 图 10.4 所 示 : 主线 程 退出 后 ， 子 线程 也 跟着 退出 了 ， 不 会 输出 0~9。 


32\cmd.exe 和 = 口 x 





男 运 反 CWindows\syste' 











图 10.4 ”主线 程 和 子 线程 都 退出 
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阻塞 线程 


多 线程 提供 了 一 个 方法 join0， 简 单 来 说 是 一 个 阻塞 线程 。 在 一 个 线程 中 调用 另 一 个 线程 
的 join0 方 法 ， 调 用 者 将 被 阻塞 ， 直 到 被 调用 线程 终止 。 其 语法 是 : 


join (timeout=None) 


timeout 参数 指定 调用 者 等 竺 多久， 没有 设置 时 就 一 直 等 待 被 调用 线程 结束 。 其 中 ， 一 个 
线程 可 以 被 join 多 次 。 例 子 10.4 可 以 演示 join0 的 用 法 。 


例子 10.4 join() 的 例子 























01 import time 


02 import threading 


03 

04 def test(): 

05 time.sleep(5) 

06 for i in range(10) : 
07 print (i) 

08 


09 threadl= threading.Thread(target=test) 

10 threadl.start() 

11 print (' 主 线程 完成 了 ') 

前 面 学 习 daemon 属性 时 已 经 提 到 ， 当 取 默 认 值 或 者 设置 为 False 时 ， 主 线程 退出 后 子 线 
旦 依然 会 执行 。 因 为 子 线程 当时 设置 了 sleep0， 所 以 先 执行 了 主线 程 的 print 输出 ， 然 后 才 输 
出 0~9。 
此 时 ， 如 果 在 第 10 行 后 面 添加 如 下 join0 方 法 : 








上 threadl .join() 
这 样 在 输出 时 ， 主 线程 会 等 到 输出 0~9 后 再 执行 自己 的 print 输出 ， 效 果 如 图 10.5 所 示 。 

SEES TESTIRKT 一 DrVEEFSSHT-B7 esse 

0 

2 

3 

4 

5 

6 

这 

计生 生计 成 了 





图 10.5 join0 方 法 应 用 


和 


判断 线程 是 否 是 活动 的 


除了 前 面 介 绍 的 join0， 其 实 threading.Thread 类 还 提供 了 很 多 方法 ， 主 要 方法 参见 表 10- 
1 所 示 。 


表 10-1 threading.Thread 类 的 方法 





名 称 | 说 明 

munt 以 表示 线程 活动 的 方法 
启动 线程 
等 待 至 线程 中 止 





























isAlive0 | 返回 线程 是 否 是 活动 的 
getName0) | 返回 线程 名 称 
设置 线程 名 称 


run0、start0、join0 在 前 面 都 介绍 过 ， 其 他 3 个 方法 可 以 用 例子 10.5 来 说 明 。 
例子 10.5 isAlive()、getName()、setName() 的 例子 




















01 import time 


02 import threading 


03 

04 def test() : 

05 time.sleep(5) 

06 for i in range (10) : 
07 print (i) 

08 


09 threadl= threading.Thread(target=test) 

10 ”print ('1. 当 前 线程 是 否 是 活动 的 : ', thread]l1 .isAlive()) 
11 threadl.start() 

12 print('2 .当前 线程 是 否 是 活动 的 : ', thread]l1 .isAlive()) 
13 ”print (' 当 前 线程 ', thread]l1 .getName ()) 

14 threadl .join() 

了 本 

16 print (' 线 程 完毕 ') 


在 第 10 行 时 ， 因 为 还 没有 使 用 start0 启 动 线程 ， 所 以 当前 线程 不 是 活动 的 状态 。 执 行 到 
第 12 行 时 就 输出 了 True。 第 13 行 获取 线程 的 名 称 ， 因 为 创建 线程 时 没有 使 用 name 属性 ， 
所 以 线程 的 默认 名 字 是 Thread-x 这 种 形式 。 本 例 效果 如 图 10.6 所 示 。 
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当前 线程 Thread-1 
0 

1 

2 

3 

4 

5 

本 

8 

9 

线程 完毕 


图 10.6 线程 的 默认 名 字 


在 代码 运行 期 间 ， 也 可 以 使 用 setName0 更 改线 程 的 名 字 。 下 面 修改 代码 为 例子 10.6。 
例子 10.6 setName() 的 例子 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
1 
3 
3 
14 
15 
16 
Ll 


import time 


import threading 


def test() : 
time.sleep(5) 
for i in range(10): 


print (i) 


threadl= threading.Thread (target=test) 

print ('1 .当前 线程 是 否 是 活动 的 : ' ,thread1 .isAlive()) 
threadl .start () 

print ('2 .当前 线程 是 否 是 活动 的 : ' ,thread]l .isAlive()) 
threadl .setName ("threadl") 

print (' 当前 线程 ', threadl .getName ()) 

threadl .join() 


print (' 线 程 完 毕 ') 


在 第 13 行 代码 中 设置 线程 名 称 为 threadl1， 整 个 程序 的 执行 效果 如 图 10.7 所 示 。 








= RESTARI: D:\threadl, py 下 
False 
True 


i = ES 
TS 








图 10.7 修改 线程 的 名 字 
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TO.6 线程 同步 


生活 中 经 常会 出 现 共享 资源 冲突 的 问题 ， 例 如 在 公共 汽车 上 只 有 一 个 空 座 ， 两 个 人 同时 
看 到 都 想 坐 时 ， 冲 突 产生 了 ， 因 为 只 有 一 个 人 能 坐 在 这 个 座位 上 。 

Python 应 用 程序 中 的 多 线程 可 以 共享 资源 ， 如 文件 、 数 据 库 、 内 存 等 。 当 线程 以 并 发 模 
式 访问 共享 数据 时 ， 共 享 数据 可 能 会 发 生 冲 突 。Python 引入 线程 同步 的 概念 ， 以 实现 共享 数 
据 的 一 致 性 。 线 程 同步 机 制 让 多 个 线程 有 序 地 访问 共享 资源 ， 而 不 是 同时 操作 共享 资源 。 





10.6.1 同步 的 概念 

在 线程 异步 模式 的 情况 下 ， 同 一 时 刻 有 一 个 线程 在 修改 共享 数据 、 另 一 个 线程 在 读 取 
共享 数据 ， 当 修改 共享 数据 的 线程 没有 处 理 完毕 时 读 取 数据 的 线程 肯定 会 得 到 错误 的 结 
果 。 如 果 采 用 多 线程 的 同步 控制 机 制 ， 当 处 理 共享 数据 的 线程 完成 处 理 数据 之 后 ， 读 取 线 
程 读 取 数 据 。 

可 以 通过 车 站 出 售 车 票 的 例子 来 理解 线程 同步 的 概念 。 比 如 说 武汉 到 北京 的 车 票 ， 在 武 
昌 、 汉 口 、 武 汉 以 及 市 内 车 票 代理 点 都 可 以 出 售 武汉 到 北京 的 车 票 。 我 们 将 每 一 个 站 点 看 成 
一 个 线程 。 假 设 有 两 个 站 点 ， 线 程 Threadl 和 线程 Thread2 都 可 以 出 售 火车 票 ， 但 是 这 个 出 
售 过 程 中 会 出 现 数据 与 时 间 信息 不 一 致 的 情况 。 线 程 Threadl 查询 系统 数据 库 ， 发 现 某 张 火 
车 票 Ticket 可 以 出 售 ， 所 以 准备 出 售 此 票 ， 此 时 线程 Thread2 也 在 数据 库 中 查询 存 票 ， 发 现 
上 面 的 火车 票 Ticket 可 以 出 售 ， 所 以 线程 Thread2 将 这 张 火车 票 Ticket 售 出 ， 这 时 当 线 程 
Threadl 执行 时 ， 它 又 卖 出 同样 的 票 Ticket。 这 样 就 出 现 了 一 张 车 票 卖 出 两 次 的 错误 以 前 铁 
路 系统 确实 发 生 过 这 类 错误 ) ， 这 是 一 个 典型 的 由 于 数据 不 同步 而 导致 的 错误 。 

基本 每 种 语言 都 会 提供 方案 来 解决 这 种 因 同步 导致 的 错误 ， 最 常用 的 方案 就 是 “ 锁 ”， 
简单 来 说 就 是 锁 住 线程 ， 只 允许 一 个 线程 操作 ， 其 他 线程 排队 等 待 ， 等 当前 线程 操作 完毕 后 
再 按 排队 顺序 逐个 操作 。 






































10.6.2 Python 中 的 锁 


Python 的 threading 模块 提供 了 RLock 锁 (可 重 入 锁 ) 解决 方案 。 某 一 时 间 只 能 让 一 个 
线程 操作 的 语句 放 到 RLock 的 acquire0 方 法 和 release(0 方 法 之 间 ， 即 acquire 相当 于 给 RLock 
上 锁 、release 相当 于 解锁 。 例 子 10.7 演示 锁 的 使 用 。 


例子 10.7 锁 的 演示 





01 import threading 


02 

03 class mythread(threading.Thread): 

04 def runl(self): 

05 global x # 声 明 一 个 全 局 变量 
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06 lock.acquire() # 上 锁 


07 x += 10 

08 print('%s:%d'$%(self.name,x)) 

09 lock.release() ## 解 锁 

10 

Tz 设置 全 局 变量 初始 值 
12 lock = threading.RLock() ## 创 建 可 重 入 锁 


13 t= 

14 for i in range(5): 

5 listl.append (mythread() ) ## 创 建 5 个 线程 ， 并 把 它们 放 到 一 个 列表 中 
TL6° "For i ln ELSTLs 


Tr ES # 开 启 列表 中 的 所 有 线程 


代码 首先 定义 了 一 个 类 mythread， 继 承 自 threading.Thread， 然 后 重 写 父 类 的 mn0 方 法 ， 
当 线 程 启动 时 自动 执行 该 方法 。 第 8 行 输出 线程 名 称 和 x 的 值 。x 是 全 局 变量 ， 用 global 定 
义 ， 作 用 域 是 整个 代码 执行 期 间 ， 在 第 11 行 设置 了 x 的 初始 值 。 

第 14~15 行使 用 for...in 语句 创建 5 个 线程 ， 第 17 行 启动 这 5 个 线程 ， 设 置 x 的 值 并 输 
出 。 为 了 保证 输出 正确 〈 读 取 x 的 值 时 不 产生 错误 ) ， 使 用 了 lock.acquire0 和 lock.release()， 
将 设置 x 值 和 读 取 x 值 的 语句 锁 起 来 ， 以 保证 线程 的 同步 ， 也 就 是 数据 的 正确 性 。 本 例 效果 
如 图 10.8 所 示 。 

















Thread-5: 50 





图 10.8 ”线程 的 同步 


10.6.3 ”Python 中 的 条 件 锁 

Python 的 threading 提供 了 一 个 方法 Condition0， 一 般 称 为 Python 中 的 条 件 变 量 。 简 单 
来 说 ， 这 个 条 件 变量 必须 与 一 个 锁 关 联 ， 所 以 也 可 以 称 为 条 件 锁 ， 一 般 用 于 比较 复杂 的 同 
步 。 比 如 ， 一 个 线程 在 上 锁 后 、 解 锁 前 ， 因 为 某 一 条 件 一 直 阻 塞 着 ， 所 以 就 一 直 解 不 开锁 ， 
其 他 线程 也 会 因为 一 直 获 取 不 了 锁 而 被 迫 阻塞 着 ， 从 而 导致 “ 死 锁 ” 现 象 。 这 种 情况 下 ， 变 
量 锁 可 以 让 该 线程 先 解锁 ， 然 后 阻塞 着 ， 等 待 条件 满 足 了 再 重新 唤醒 并 获取 锁 (上 锁 ) 。 这 
样 就 不 会 因为 一 个 线程 有 问题 而 影响 其 他 线程 了 。 变 量 锁 的 使 用 方法 一 般 是 : 


con = threading.Condition() 








的 一 个 现象 。 


条 件 锁 常用 的 方法 可 参见 表 10-2。 
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表 10-2 条件 锁 常用 的 方法 





























名 称 说 明 

acquire([timeout) 调用 关联 锁 的 相应 方法 

Telease0 解锁 

waitO 使 线程 进入 Condition 的 等 待 池 等 待 通知 ， 并 释放 锁 。 使 用 前 线程 必须 已 获 
得 锁定 ， 否 则 将 抛 出 异常 

notifyO 从 等 待 池 挑选 一 个 线程 并 通知 ， 收 到 通知 的 线程 将 自动 调用 acquire0 尝 试 获 


得 锁定 〈 进 入 锁定 池 ) ;其 他 线程 仍然 在 等 待 池 中 。 调 用 这 个 方法 不 会 释放 
锁定 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 将 抛 出 异常 





notifyAll0 通知 等 待 池 中 所 有 的 线程 ， 这 些 线程 都 将 进入 锁定 池 尝 试 获得 锁定 。 调 用 这 
个 方法 不 会 释放 锁定 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 将 抛 出 异常 











条 件 锁 的 原理 跟 设 计 模式 中 的 生产 者 /消费 者 (Producer/Consumer) 模式 类 似 。 了 解 了 这 
个 模式 ， 也 就 了 解 了 条 件 锁 。 顾 名 思 义 ， 生 产 者 是 一 段 用 于 生产 的 内 容 ， 生 产 的 成 果 供 消费 
者 消费 ， 这 中 间 涉 及 一 个 缓存 池 〈 用 来 存储 数据 ) ， 一 般 称 为 仓库 。 生 产 者 、 人 仓库、 消费 者 
的 关系 如 下 : 


@ ”生产 者 仅仅 在 仓库 未 满 时 生产 ， 仓 满 则 停止 生产 。 

@ 消费 者 仅仅 在 仓库 有 产品 时 才能 消费 ， 仓 空 则 等 待 。 

@ 当 消 费 者 发 现 仓库 没有 产品 可 消费 时 会 通知 生产 者 生产 。 

@ 生产 者 在 生产 出 可 消费 产品 时 ， 应 该 通知 等 待 的 消费 者 去 消费 。 


在 例子 10.8 中 ， 我 们 设计 一 个 产品 ， 用 一 个 生产 者 类 生产 产品 〈 产 品 数量 +1) ， 当 产品 
数量 到 达 10 时 ， 停 止 生产 ， 再 用 一 个 消费 者 类 来 消费 产品 〈 产 品 数量 -1) 。 
例子 10.8 join() 的 例子 


01 import threading 

02 import time 

03 

04 products = [] 

05 condition = threading.Condition() 
06 


07 class Consumer (threading.Thread): 


08 def consume (self): 

09 global condition 

10 global products 

二 下 

12 condition.acquire() 

13 if lenl(products) == 0: 

14 condition.wait() 

Us print ("消费 者 提醒 : 没有 产品 去 消费 了 ") 
16 products.pop () 

1 print ("消费 者 提醒 : 消费 1 个 产品 ") 
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18 print ("消费 者 提醒 : 还 能 消费 的 产品 数 为 "\ 


工业 + str(len(products))) 

20 condition.notify() # 通 知 

2 condition.release() # 解 锁 

ay Geb pun(SeLE)s 

23| for i in range(0, 20): 

24 time.sleep (4) # 消 费 一 个 产品 的 时 间 
2 self.consume () 

26 

27 class Producer (threading.Thread) : 

28 def Produce (selLf) : 

2 global condition 

30 global Products 

31 

32 condition.acquire() # 设 置 条 件 锁 
= if len(products) == 10: 

34 condition.wait () # 等 待 

35 print ("生产 者 提醒 : 生产 的 产品 数 为 "\ 

36 + strl(lenl(products))) 

= print ("生产 者 提醒 : 停止 生产 ! ") 

38 products.append (1) 

39 print ("生产 者 提醒 :产品 总 数 为 "\ 

40 + Str (Jen (Products) )) 

41 condition.notify () # 通 知 

42 condition.release() # 解 锁 

43 

44 def run(self) : 

45 for i in range(0, 20): 

46 time.sleep(1) # 生 产 一 个 产品 的 时 间 
47 self.produce () 

48 

49 producer = Producer () # 生 产 者 实例 
50 consumer = Consumer () # 消 费 者 实例 


51 producer.start() 
52 consumer.start() 
53 producer.join() # 阻 寨 线 程 
54 _ consumer .join () # 阻 寨 线 程 


上 述 代 码 用 time.sleep0 来 控制 生产 和 消费 的 时 间 ，1 秒 生产 一 个 产品 ，4 秒 消费 一 个 产 
品 。 当 产品 生产 的 数量 到 达 我 们 设计 的 上 限 10 时 就 停止 生产 ， 并 调用 wait 等 待 线程 通知 ; 
可 消费 的 产品 数量 为 0 时 就 停止 消费 ， 并 调用 wait 等 待 线程 通知 。 

本 例 部 分 结果 如 下 : 

生产 者 提醒 :产品 总 数 为 1 
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生产 者 提醒 :产品 总 数 为 2 

生产 者 提醒 :产品 总 数 为 3 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 2 
生产 者 提醒 :产品 总 数 为 3 

生产 者 提醒 :产品 总 数 为 4 

生产 者 提醒 :产品 总 数 为 5 

生产 者 提醒 :产品 总 数 为 6 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 5 
生产 者 提醒 :产品 总 数 为 6 

生产 者 提醒 :产品 总 数 为 7 

生产 者 提醒 :产品 总 数 为 8 

生产 者 提醒 :产品 总 数 为 9 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 8 
生产 者 提醒 :产品 总 数 为 9 

生产 者 提醒 :产品 总 数 为 10 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 9 
生产 者 提醒 : 生产 的 产品 数 为 9 
生产 者 提醒 : 停止 生产 ! 

生产 者 提醒 :产品 总 数 为 10 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 9 
生产 者 提醒 : 生产 的 产品 数 为 9 
生产 者 提醒 : 停止 生产 ! 

生产 者 提醒 :产品 总 数 为 10 

消费 者 提醒 : 消费 1 个 产品 

消费 者 提醒 : 还 能 消费 的 产品 数 为 9 
生产 者 提醒 : 生产 的 产品 数 为 9 


本 章 小 结 


在 处 理 大 批 流程 都 类 似 的 程序 时 ， 使 用 多 线程 可 以 有 效 地 节省 时 间 ， 耗 费 的 不 过 是 一 些 
计算 机 资源 ， 是 典型 的 拿 计 算 资源 换 时 间 。 以 目前 计算 机 的 性 能 来 看 ， 大 多 都 是 性 能 过 剩 








的 ， 利 上 











使 有 














剩余 的 计算 资源 ， 节 省 时 间 是 非常 合算 的 。 
多 线程 〈 多 进程 ) 时 ， 需 要 注意 的 是 锁 。 使 用 锁 来 保护 共享 的 资源 、 数 据 ， 避 免 被 


其 他 的 线程 〈 进 程 ) 破坏 。 一 般 使 用 互 斥 锁 就 可 以 应 付 大 多 数 情 况 了 。 
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11 
< 文件 与 目 东 > 


os 模块 和 shutil 模块 是 Python 处 理 文件 /目录 的 主要 方式 。 特 别 是 os 模块 ， 在 写 代码 时 
经 常 性 会 用 到 ， 该 模块 提供 了 一 种 使 用 操作 系统 相关 功能 的 便捷 方式 。shutil 模块 是 一 种 高 级 
的 文件 /目录 操作 sy ， 强 大 之 处 在 于 对 文件 的 复制 及 删除 操作 。 

本 章 的 主要 内 容 是 





@ os 模块: 通过 学 习 os 模块 相关 函数 ， 掌 握 文件 的 基本 处 理 。 


@ shutil 模块 : 通过 学 习 shutil 模块 相关 函数 ， 掌 握 文 件 和 目录 的 复制 、 移 动 、 删 除 、 
压缩 、 解 压 等 高 级 处 理 。 


文件 的 处 理 


os 模块 提供 一 些 便捷 功能 使 用 操作 系统 ， 比 如 读 取 某 目录 下 的 文件 、 在 命令 行 查看 某 路 
径 下 文件 的 所 有 内 容 等 。 在 本 节 我 们 将 依次 对 os 模块 下 常用 的 函数 或 属性 等 进行 讲解 


11.1.1 获取 系统 类 型 


对 代码 进行 兼容 性 开发 以 适应 不 同 操作 系统 时 ， 通 过 系统 类 型 进行 判断 可 以 轻松 地 解 
决 。 


>>> import os 
>>> os.name 


nt' 





mt 名 称 依赖 于 操作 系统 ，nt 代表 Windows、posix 代表 Linux。 有 如 下 名 称 已 经 注册 在 os 
模块 中 : posix'、mt'、'ce'、Jjava'。 因 此 可 以 轻易 地 根据 os.name 来 判断 操作 系统 。 
>>> if os.name == "nt': 


print (' 你 的 操作 系统 是 Windows!') 


elif os.name =="'posix"': 


print (' 你 的 操作 系统 是 Linux"') 
C13es 


print (' 你 的 操作 系统 是 其 他 ' ) 


你 的 操作 系统 是 Windows! 
如 果 想 知道 操作 系统 更 详细 的 信息 ， 可 以 使 用 sys.platform。 
>>> sys.platform 


wn 


11.1.2 ”获取 系统 环境 
对 系统 环境 变量 进行 相关 设置 时 常常 调用 模块 environ 属性 ， 如 例子 11.1 所 示 。 
例子 11.1 environ 属性 


>>> import os 

















>>> os.environ 

environ({'ALLUSERSPROFILE': 'C:\\ProgramData', 'APPDATA': 
'C:\\Users\\tina\\AppData\\Roaming', 'COMMONPROGRAMFILES': 'C:\\Program 
Files\\Common Files', 'COMMONPROGRAMFILES (X86)': 'C:\\Program Files 
(x86) \\Common Files', 'COMMONPROGRAMW6432': 'C:\\Program Files\\Common Files', 
'COMPUTERNAME': ‘'DESKTOP-B97M55J', '"'COMSPEC': 'C:\\WINDOWS\\system32\\cmd.exe', 
'DRIVERDATA': 'C:\\Windows\\System32\\Drivers\\DriverData', 
'FPS BROWSER APP PROFILE STRING': "Internet Explorer', 
'FPS_ BROWSER USER PROFILE STRING': 'Default', 'HOME': 'C:\\Users\\tina', 
'HOMEDRIVE': 'C:', 'HOMEPATH': '\\Users\\tina', 'LOCALAPPDATA': 
'C:\\Users\\tina\\AppData\\Local', 'LOGONSERVER': '\\\\DESKTOP-B97M55J', 
'NUMBER_ OF _ PROCESSORS': '2', 'ONEDRIVE': 'C:\\Users\\tina\\OneDrive', '0OS': 
'Windows_NT', 'PATH': 
'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS\\Sy 
stem32\\WindowsPowerShell\\v1l.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\scripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 
grams\\Python\\Python37\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm; ', 'PATHEXT': 
' .COM; .EXE; .BAT; .CMD; .VBS; .VBE; .JS; .JSE; .WSF; .WSH; .MSC', 
'PROCESSOR ARCHITECTURE': 'AMD64', 'PROCESSOR IDENTIFIER': "RMD64 Family 16 
Model 6 Stepping 2, AuthenticAMD', 'PROCESSOR LEVEL': "16'v 
'PROCESSOR REVISION': "0602'， 'PROGRAMDATA': 'C:\\ProgramData', '!PROGRRMEILES ' : 
'C:\\Program Files', 'PROGRAMFILES (X86)': 'C:\\Program Files (x86)', 
'PROGRAMW6432': 'C:\\Program Files', 'PSMODULEPATH': 'C:\\Program 
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Files\\WindowsPowerShell\\Modules;C:\\WINDOWS\\system32\\WindowsPowerShell\\v1l 
.0\\Modules', 'PUBLIC': 'C:\\Users\\Public', 'SESSIONNAME': 'Console'y 
STSTEMDRIVE: Ce", VSYSTEMROOT: “C:\NWINDONS', "TEMP: 
'C:\\Users\\tina\\AppData\\Local\\Temp', 'TMP': 
'C:\\Users\\tina\\AppData\\Local\\Temp', 'USERDOMAIN': 'DESKTOP-B97M55J', 
'USERDOMAIN ROAMINGPROFILE': 'DESKTOP-B97M55J'， "USERNRME ' : "tina'v 
'USERPROFILE': 'C:\\Users\\tina', 'WINDIR': 'C:\\WINDOWS'}) 


>>> env = os.environ 


>>> for © in env 


i print (e) 


ALLUSERSPROFILE 
APPDATA 

COMMONPROGRAMFILES 
COMMONPROGRAMFILES (X86) 

// 省 略 部 分 代码 

WINDIR 

WINDOWS_TRACING FLAGS 
WINDOWS_TRACING LOGFILE 
_DFX_INSTALL UNSIGNED DRIVER 


>>> env['PATH'] 

'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS 
\\System32\\WindowsPowerShell\\v1.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\sScripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 
grams\\Python\\Python37\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm;" 


从 如 上 代码 可 以 看 出 ，os.environ 返回 的 系统 环境 变量 是 字典 的 形式 。 如 果 要 获取 具体 环 
境 变 量 的 属性 值 ， 既 可 以 直接 索引 输出 ， 也 可 以 使 用 方法 getenv0， 比 如 env['PATH]: 


>>> os.getenv('PATH') 

'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS 
\\System32\\WindowsPowerShell\\v1l.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\scripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 
grams\\Python\\Python371\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm;"' 

















11.1.3 ”执行 系统 命令 
使 用 os 模块 system0 方 法 就 可 以 执行 shell 命令 ， 正 常 执行 会 返回 0。 使 用 格式 是 
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os.system("bash command")。 演示 如 例子 11.2 所 示 。 
例子 11.2 执行 系统 命令 


>>> os.system('ping www.baidu.com ') 





正在 Ping www.baidu.com [39.108.166.54] 具有 32 字 节 的 数据 : 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =38ms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =80ms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =41lms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =72ms TTL=48 


39.108.166.54 的 Ping 统计 信息 : 

数据 包 : 已 发 送 = 4， 已 接收 = 4， 丢 失 = 0 (0% 丢失 )， 
往返 行程 的 估计 时 间 (以 毫秒 为 单位 ) : 

最 短 = 38ms， 最 长 = 80ms, 平均 = 57ms 
0 


>>> os.popen('ping www.baidu.com') .read() 
'\n 正 在 Ping www.baidu.com [39.108.166.54] 具有 32 字 节 的 数据 :\n 来 自 39 
.108.166.54 的 回复 : 字 节 =32 时 间 =46ms TTL=48\n 来自 39.108.166.54 的 回复 : 字 节 =32 
时 间 =50ms TTL=48\n 来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =75ms TTL=48\n 来 自 39. 
108.166.54 的 回复 : 字 节 =32 时 间 =74ms TTL=48\n\n39.108.166.54 的 Ping 统计 信 
息 :\n 

数据 包 : 已 发 送 = 4， 已 接收 = 4， 丢失 = 0 (0% 丢失 ) ，\n 往返 行程 的 估计 时 间 (以 

毫秒 为 单位 ) : \n 最 短 = 46ms， 最 长 = 75ms， 平 均 = 6lms\n' 


在 非 控制 台 编 写 时 ，systemO 只 会 调用 系统 命令 而 不 会 执行 ， 执 行 结果 可 通过 popenO) 函 | 
数 返回 file 对 象 进行 读 取 获得 。 : 


11.1.4 ”操作 目录 及 文件 

使 用 os 模块 操作 目录 和 文件 是 Python 开发 最 为 常见 的 功能 之 一 。 熟 练 掌握 它 对 于 我 们 
进行 Python 开发 尤为 重要 。 

1. 获 取 当 前 目录 


使 用 os.getcwdO 函 数 获取 当前 目录 路 径 ， 即 当前 Python 脚本 工作 的 目录 路 径 ， 该 函数 没 
有 参数 。 


>>> import os 






































>>> os.getcwd() 
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区 


'C:\\Users\\xxxx\\AppData\\Local\\Programs\\Python\\Python37"' 


2. 更 改 目录 
使 用 os.chdir0 函 数 更 改 当 前 脚本 目录 ， 相 当 于 shell 命令 中 的 cd， 从 函数 名 很 容易 理解 
































需要 目标 目录 的 路 径 作 为 参数 ， 使 用 方法 为 os.chdir ("目标 路 径 ') 。 代 码 接 上 后 面 不 做 














说 明 ) : 


>>> os.chdir('E:') 


>>> os .getcwd () 


Ei\\! 
从 代码 可 以 看 出 ， 目 录 由 当前 工作 目录 转 到 “E:\”。 
3. 列 举目 录 下 的 所 有 文件 


os.listdir(patb) 函 数 可 获得 path 下 的 所 有 文件 ， 返 回 的 是 列表 : 


>>> os.listdir('E:\\testdir') 


['index.html', ‘'one.txt', 'os.py'] 





4 创建 及 删除 目录 
使 用 os.mkdir(path) 函 数 可 创建 单个 目录 ， 使 用 os.makedirs(path) 函 数 可 创建 多 级 目录 。 


使 用 os.mdirO 可 删除 单 级 空 目录 ， 若 目录 不 为 空 则 无 法 删除 ， 参 数 为 需 删 除 的 目录 名 称 。 使 














用 os.removedirsO 可 删除 多 级 空 目 录 ， 参 数 为 需 删 除 的 目录 名 称 或 路 径 。 例 子 11.3 演示 如 何 
创建 及 删除 目录 。 


例子 11.3 ”创建 及 删除 目录 





>>> os.mkdir('./dirl') 


>>> os.makedirs('./dirl/dir2/dir3') 


>>> os. listdir("'diri") 
| 机 


>>> os.rmdir("dirl') 


OSError Traceback (most recent call last) 


<ipython-input-17-fc3e3e614220> in <module>() 
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= smi dl) 
OsError: [WinError 145] 目录 不 是 空 的 。: 'dirl' 
>>> os.removedirs('./dirl/dir2/dir3') 


>>> os.listdir('./dirl') 


FileNotFoundError Traceback (most recent call last) 
<ipython-input-19-9abfbda7d558> in <module>() 
----> os.listdir('./dirl') 


FileNotFoundError: [WinError 3] 系统 找 不 到 指定 的 路 径 。: './dirl' 
>>> os.mkdir('dirl') 


>>> os.rmdir('dirl') 


5. 重 命名 目录 或 文件 

使 用 os.rename0) 函 数 可 重 命名 目录 或 文件 ， 使 用 方法 为 : 
os .rename ("文件 或 者 目录 名 称 ", "要 修改 成 的 文件 或 目录 名 称 ") 
例如 : 


>>> os.chdir('e:\\testdir') 


>>> os.getcwd() 
'E:\\testdir"' 


| 


['index.html', 'one.txt', 'os.py'] 
>>> os.rename('one.txt', 'two.txt"') 


>2>> Oss listdir(r.") 


lI"inadex. html TosepYr ‘twostxt"] 
6. 获 取 绝对 路 径 
使 用 os.path.abspath(path) 可 获取 path 的 绝对 路 径 ， 一 般 情 况 下 此 处 指 相对 路 径 。 


>>> OSs. Dach abspachl 
"eNetdlry 
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>> Ua-.Bath abspatht"e 2 

i 

7. 路 径 分 解 与 组 合 

通过 os.path.split(path) 函 数 将 路 径 分 解 为 (文件 夹 , 文 件 名 )， 返 回 的 是 一 个 二 元 组 。 可 以 看 
出 ， 若 路 径 字 符 串 最 后 一 个 字符 是 \， 则 只 有 文件 夹 部 分 有 值 ， 若 路 径 字 符 串 中 均 无 \， 则 只 
有 文件 名 部 分 有 值 。 若 路 径 字 符 串 有 \ 且 不 在 最 后 ， 则 文件 夹 和 文件 名 均 有 值 ， 且 返回 的 文件 
夹 结果 不 包含 \。os.path.join(path1l,path2,…) 函 数 将 path 进行 组 合 ， 若 其 中 有 绝对 路 径 ， 则 之 
前 的 path 将 被 删除 。 具 体 如 例子 11.4 所 示 。 
例子 11.4 路径 分 解 与 组 合 


>>> os.path.split('D:\\flaskProject\\mergePic\\runserver.py') 














('D:\\flaskProject\\mergePic', 'runserver.py') 


>>> os.path.split('D:\\flaskProject\\mergePic\\') 
('D:\\flaskProject\\mergePic', '') 


>>> os.path.split('D:\\flaskProject\\mergePic') 
('D:\\flaskProject', 'mergePic') 


>>> os.path.join('D:\\flaskProject', 'mergePic') 
'D:\\flaskProject\\mergePic' 


>>> os.path.join('D:\\flaskProject', ''mergePic', 'hello.py') 
'D:\\flaskProject\\mergePic\\hello.py' 


8. 返 回 目录 和 文件 名 


使 用 os.path.dimame(path) 函 数 可 获取 path 中 的 文件 夹 部 分 ， 并 且 结 果 不 包含 “”， 使 
用 os.path.basename(path) 函 数 可 获取 path 中 的 文件 名 ， 可 参考 例子 11.5。 


例子 11.5 返回 目录 和 文件 名 





























>>> os.path.dirname ('D:\\flaskProject\\mergePic\\hello.py') 
'D:\\flaskProject\\mergePic' 


>>> os.path.dirname('.') 


>>> os.path.dirname ('D:\\flaskProject\\mergePic\\') 
'D:\\flaskProject\\mergePic' 


>>> os.path.dirname('D:\\flaskProject\\mergePic') 
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'D:\\flaskProject' 


>>> os.path.basename ('D:\\flaskProject\\mergePic\\hello.py') 
hello.py" 


>>> os.path.basename ('.') 


we 


>>> os.path.basename ('D:\\flaskProject\\mergePic\\') 


>>> os.path.basename ('D:\\flaskProject\\mergePic') 


1mergePic'" 


9 .判断 及 获取 文件 或 文件 夹 信息 

使 用 函数 os.path.exists(path) 可 判断 文件 或 文件 夹 是 否 存在 ， 如 果 存 在 就 返回 True， 和 否则 
返回 False 。 通 过 函数 os.path.isfile(path) 可 判断 路 径 是 否 为 一 个 文件 。 通 过 函数 
os.path.isdir(path) 可 判断 路 径 是 否 为 一 个 目录 。 通 过 函数 os.path.isabs(path) 可 判断 路 径 是 否 是 
绝对 路 径 。 通 过 函数 os.path.getsize(path) 可 获取 文件 或 文件 夹 大 小 。 通 过 函数 
os.path.getctime(path) 可 获取 文件 或 文件 夹 的 创建 时 间 、os.path.getatime(path) 可 获取 文件 或 文 
件 夹 的 最 后 访问 时 间 、os.path.getmtime(path) 可 获取 文件 或 文件 夹 的 最 后 修改 时 间 。 这 些 获取 
时 间 的 函数 返回 值 都 是 从 新 纪元 到 代码 执行 时 的 秒 数 。 具 体 的 演示 参见 例子 11.6。 


新 纪元 是 指 从 协调 世界 时 1970 年 1 月 1 日 0 时 0 分 0 秒 起 到 现在 的 总 秒 数 ， 不 包括 加 ， 
秒 。 正 值 表示 1970 年 以 后 ， 负 值 表 示 1970 年 以 前 。 


例子 11.6 ”判断 及 获取 文件 或 文件 夹 信息 


>>> os.listdir('D:\\flaskProject\\mergePic') 
['.git', 
'.gitignore', 
i 
'PicMerge', 
'requirements.txt', 
'runserver.py', 
'uploadr'] 


>>> os.path.exists('D:\\flaskProject\\mergePic\runserver.py') 


False 


>>> os.path.exists('D:\\flaskProject\\mergePic\\runserver.py') 
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EW 


>>> os.path.exists('D:\\flaskProject\\mergePic\\Runserver.py') 


True 


>>> os.path.exists('D:\\flaskProject\\mergePic\\RunseRveR.PY') 


True 


>>> os.path.exists('D:\\flaskProject\\mergePic\\Runserverl.py') 
False 


>>> os.path.exists('D:\\flaskProject\\mergePic\\') 
True 


>>> os.path.exists('D:\\flaskProject\\mergePic') 
True 


>>> os.path.isfile('D:\\flaskProject\\mergePic\runserver.py') 


False 


>>> os.path.isfile('D:\\flaskProject\\mergePic\\runserver.py') 


True 


>>> os.path.isfile('D:\\flaskProject\\mergePic') 
False 


>>> os.path.isdir('D:\\flaskProject\\mergePic\\') 
Ee 


>>> os.path.isdir('D:\\flaskProject\\mergePic') 
True 


>>> os.path.isabs('D:\\flaskProject\\mergePic\\runserver.py') 


True 


>>> os.path.getsize('D:\\flaskProject\\mergePic\\runserver.py') 
538 


>>> os.path.getsize('D:\\flaskProject\\mergePic') 
4096 


>>> os.path.getctime('D:\\flaskProject\\mergePic\\runserver.py') 
1487857915.8891466 
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>>> os.path.getatime('D:\\flaskProject\\mergePic\\runserver.py') 
1487857915.8891466 


>>> os.path.getmtime('D:\\flaskProject\\mergePic\\runserver.py') 
1487584624.342 


10. 表现 形式 参数 
在 os 模块 中 定义 了 一 些 文件 、 路 径 在 不 同 操作 系统 中 的 表现 形式 参数 。 
>>> 03 36p 


ws 


>>> 05-.exXtsep 


>>> os.pathsep 


| 
; 


>>> os.linesep 


Nn 


上 面 介绍 的 只 是 os 模块 中 较为 常用 的 方法 或 属性 ， 如 果 想 了 解 更 多 ， 可 查看 源码 或 文 
档 。 接 下 来 介绍 shutil 模块 ， 也 就 是 目录 的 处 理 。 


文件 和 目录 的 高 级 处 理 


相 比 os 模块 ，shutil 模块 用 于 文件 和 目录 的 高 级 处 理 ， 提 供 了 支持 文件 复制 、 移 动 、 删 
除 、 压 缩 、 解 压 等 功能 。 


11.2.1 复制 文件 


shutil 模块 的 主要 作用 是 复制 文件 。 注 意 ， 在 Windows 控制 台 上 演示 这 些 函 数 的 使 用 方 
法 容易 涉及 权限 的 问题 ， 但 在 Linux 系统 操作 上 可 以 更 为 直观 地 查看 效果 。 


1. 一 种 覆盖 形式 的 复制 


shutil 提供 了 一 个 copyfileobj(filel，file2) 函 数 ， 功 能 是 将 filel 的 内 容 复制 到 file2， 而 且 
会 覆盖 file2 的 内 容 。 参 数 filel 、file2 表示 打开 的 文件 对 象 ， 并 且 file2 必须 是 可 写 入 的 。 


>>> import shutil 





























>>> fl = open('filel.txt',encoding='utf-8') 
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>>> f2 = open('file2.txt','w',encoding='utf-8') 
>>> shutil.copyfileobj(fl,f2) 


2. 另 一 种 覆盖 形式 的 复制 
shutil 还 提供 一 个 函数 copyfile(filel, file2)， 无 须 打 开 文 件 ， 直 接 用 文件 名 进行 覆盖 。 从 
该 函数 源码 可 知 它 调用 shutil.copyfileobj0 函 数 ， 返 回 file2: 


22> JHUtil CopYfEile(" Eile. txtE re "Ff14163- taxt") 
File3s tt 


3. 文件 权限 的 复制 
shutil 提供 了 一 个 函数 copymode(file1，file2)， 仅 复制 文件 权限 ， 不 更 改 文件 内 容 、 组 和 
和 户 ， 无 返回 对 象 。 
>>> Shutil.copymode ('filel.txt'，， 'file3.txt"') 
4. 文件 状态 的 复制 
shutil 的 copystat(file1，file2) 用 于 复制 文件 的 所 有 状态 信息 ， 包 括 权 限 、 组 、 用 户 和 时 间 
等 ， 无 返回 对 象 。 
>>> shutil.copystat('filel.txt','file3.txt') 
5. 一 种 文件 的 内 容 和 权限 的 复制 


shutil.copy(file1，file2) 函 数 复制 文件 的 内 容 以 及 权限 ， 相 当 于 先 执行 copyfile0 后 再 执行 
copymode()， 返 回 file2 。 





























i 








>> hutil copy (tlie txt Le txt dy) 


'file3.txt' 
6. 另 一 种 文件 的 内 容 和 权限 的 复制 
shutil.copy2(file1，file2) 函 数 复制 文件 的 内 容 以 及 文件 的 所 有 状态 信息 ， 相 当 于 先 执行 


copyfile0 再 执行 copystat0， 返 回 file2。 


>>3 Dutilecopyv2 (filel txtur tileS=txt ,yy 
各 【区 过 4 


7. 递归 地 复制 文件 内 容 及 状态 信息 
shutil 提供 了 一 个 函数 copytree0， 用 来 递归 地 复制 文件 内 容 及 状态 信息 。 


shutil.copytree(src,dst,symlinks=False,ignore=None, copy_ function=copy2, ign 


ore dangling symlinks=False) 


copytreeO 的 使 用 通过 例子 11.7 来 展示 。 
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例子 11.7 ”shutil.copytree() 的 使 用 


>>> 1s 


驱动 器 c 中 的 卷 是 system 
卷 的 序列 号 是 2496-EC22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/23 
2018/04/23 
2018/04/23 
2018/04/23 
2018/04/23 


eo 


1 <DIR> 

17:20 <DIR> 2 

17:06 56 filel.txt 
17:12 0 file2.txt 
17:06 56 file3.txt 
3 个 文件 112 字 节 

2 个 目录 17,306,734, 592 可 用 字 节 


C:\Users\Administrator 


>>> shutil.copytree('os-shutil','os-shutil-cp') 


vos=shutili=ep" 


11.2.2 ”移动 文件 


使 用 shutilmove(src，dst copy_function=copy2) 函 数 可 以 递归 地 移动 文件 或 重 命名 ， 
回 目标 。 若 目标 是 现 有 目录 ， 则 src 在 当前 目录 移动 ; 若 目标 已 经 存在 且 不 是 目录 ， 则 五 


会 被 覆盖 。 移 除 文件 的 演示 如 例子 11.8 所 示 。 


例子 11.8 ”移动 文件 


>>> import shutil 


>>> import os 


>> oo UsEdrr( 0) 


| 有 e 放 


| 


>>> Shutil movet Filel: txt rr FileA. txt") 


人 


DPIOSR ES 
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并 返 





| txt, file3 tt Filled txt 


11.2.3” 读 取 压 缩 及 归档 压缩 文件 
make_archiveO 函 数 用 于 创建 归档 文件 ， 并 返回 归档 后 的 名 称 ， 语 法 如 下 : 


shutil.make archive (base_name，format[，Ioot dir[, base dir[, verbose[, dr 


五 








Y_run[，owner[，group[，1Logger]]]]]]]) 


base_name 为 需要 创建 的 文件 名 称 ， 包 括 路 径 ， 要 减 去 任何 特定 格式 的 扩展 名 。format 
可 选项 有 zip、tar 或 bztar 等 ， 可 以 通过 shutil.get_archive_fommats0 获 取 支 持 的 归档 格式 列 
表 。root dir 为 归档 文档 的 目录 。 读 取 压 缩 及 归档 压缩 文件 可 通过 例子 11.9 来 展示 。 


例子 11.9_ 读 取 压 缩 及 归档 压缩 文件 





| 
驱动 器 c 中 的 卷 是 SYStem 
卷 的 序列 号 是 2496-Fc22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/24 09:29 <DIR> 
2018/04/24 09:29 <DIR> 


2018/04/23 17:12 0 file2.txt 
2018/04/23 17:06 56 file3 .txt 
2018/04/23 17:06 56 file4.txt 
人 112 字 节 
2 个 目录 17,314,975, 744 可 用 字 节 


>>> shutil.make archive('"- "yz2ip'"y -7) 
'C:\\Users\\Administrator\\os-shutil.zip’' 


11.2.4 解压 文件 

可 以 通过 函数 shutil.unpack archive(filename[,extract_dir[,format]]) 分 拆 归档 。 其 中 ， 
filename 为 归档 的 完整 路 径 ，extract_dir 为 解压 归档 的 目标 目录 名 称 ， 如 果 未 提供 就 使 用 当前 
目录 进行 解压 。 格 式 是 文件 存档 格式 、zip、tar 或 其 他 。 解 压 文件 的 展示 如 例子 11.10 所 示 。 
例子 11.10 ”解压 文件 


>>> os.listdir('e:\\testdir') 
































人 snaesPptaln "osepy'y "twostxt"] 


>>> ‘shutil.make archive(”."r "zip’y".") 


'C:\\Users\\Administrator\\os-shutil.zip' 
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>>> shutil.unpack archive('C:\\Users\\Administrator\\os-shutil.zip', 'e:\\t 


sestadrr™y 


>>> os.listdir('e:\\testdir') 
[ETe2 ta 
a 


te tt 


关于 shutil 模块 就 介绍 到 这 里 。 当 然 ， 除 了 上 述 功能 ， 


小 、 引 发 同一 文件 异常 等 功能 。 


'index.html', 


IOS two tA 





shutil 模块 还 有 获取 终端 窗 











开始 编程 : 文件 处 理 实战 


【本 节 代 码 参 考 : Cll\dir images.py】 


我 们 利用 本 章 所 学 的 知识 创建 一 个 小 应 用 。 该 应 用 在 图 片 识别 处 理 中 
用 于 训练 的 图 片 库 ， 首 先 得 删除 该 图 片 库 中 的 非 图 片 文件 ， 


党 


常常 会 涉及 ， 比 如 
然后 对 这 些 图 片 按 一 定 规律 进行 


命名 ， 以 及 创建 图 片 的 索引 ， 便 于 图 像 识别 程序 能 够 根据 索引 文件 进行 处 理 。 
创建 一 个 文件 dir_images.py， 输 入 如 例子 11.11 所 示 的 代码 。 


# 判断 是 否 


例子 11.11 文件 处 理 实战 

01 import os 

02 import shutil 

03 import time 

04 

05 间 可 选 的 图 片 列表 

06 IMG = ['jpg', 'jpeg', 'gif', 'png'] 

07 

08 ## 重 命名 图 片 及 删除 非 图 片 文件 

09 def rename image (Path) : 

10 global i # 定义 全 局 变量 

了 if not os.path.isdir (Path) and not os.path.isfile(path) : 
是 目录 或 文件 

12 return False 

13 if os.path.isfile (path): # 如 果 是 文件 

14 file path = os.path.split (path) # 分 割 出 目录 与 文件 名 

15 lists = file path[1] .split('.') ## 分 割 出 文件 与 文件 扩展 名 

16 file ext = lists[-1] # 取出 后 缀 名 

Had if file ext in IMG: # 判断 该 后 级 名 是 否 是 图 片 的 后 缀 名 

18 os.rename (path, file path[0] + "/" + lists[0] + str(i) + '.' 
二 file ext) 

19 二 
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20 


下 正本 名 





之 下 print (file path) 

有 他 os .remove (os.path.join(file path[0], file path[1])) 

23 elif os.path.isdir (path): # 如 果 是 目录 

24 for x in os.listdir (path): # 递归 重 命 名 程序 

25 rename image (os.path.join(path, x)) 

26 

27 # 创建 文本 索引 文件 

28 def create index(path): 

9 if not os.path.isdir (path) and not os.path.isfile(path): # 判断 是 否 
是 目录 或 文件 

30 return False 

本 下 if os.path.isdir(path): 

这 也 lists = os.listdir (path) 

33 with open(os.path.join (Path， ‘'index.txt'), ‘'a+', encoding='utf- 
1: 1 

34 for item in lists: 

35 f.write (item) 

36 f.write("\n") 

品味 

38 +# 压缩 目录 下 的 文件 

39 def archive dir(path): 

40 shutil.make archive (path, ‘zip') 

41 

42 ## 执行 主 函数 

43 def main (Path) : 

44 rename image (path) 

45 create index (Path) 

46 archive dir (path) 

47 

48 if name == "main _": 

49 img_dir = input ("请 输入 路 径 :") # 取得 图 片 文件 夹 路 径 ， 比 如 "E:\images" 

50 start = time.time() # 计时 

5 =0 # 初始 化 计算 器 i 为 0 

52 main(img dir) 

53 m= time.time() - start 

54 print ("程序 运行 耗 时 :%0.2f" gs m) 

55 print (" 总 共处 理 了 sd 张 图 片 " s i) 


以 某 主 机 为 例 ， 处 理 E:\images 下 的 文件 ， 目 录 如 图 11.1 所 示 。 
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图 11.1 待 处 理 目录 E:\images 
执行 结果 如 图 11.2 所 示 。 





图 11.2 处 理 后 的 目录 E:\images 


同时 会 在 images 同 级 目录 下 创建 一 个 images.zip。 在 Windows cmd 中 执行 该 代码 可 能 会 
报 PermissionError 错误 ， 这 是 权限 问题 ， 不 影响 我 们 所 需 的 结果 。 


1 .4 本章 小 结 


日 常 编程 时 ， 处 理 数 据 是 大 多 数 情 况 ， 但 文件 的 处 理 也 是 必 不 可 少 的 。 需 要 稍微 注意 的 
是 不 同 的 操作 系统 ， 路 径 分 隔 符 也 不 一 样 ， 在 文件 处 理 中 要 考虑 这 种 情况 。 可 以 使 用 os.sep 
来 替代 文件 分 隔 符 ， 避 免 因 为 操作 系统 而 造成 程序 异常 。 另 外 ， 文 件 权限 、 文 件 和 文件 夹 区 
别 的 问题 也 需要 考虑 。 相 对 而 言 ， 在 Linux 下 的 文件 处 理 可 能 会 稍微 简单 一 点 。 
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第 12 章 
< 正则 表达 式 > 


正则 表达 式 是 用 于 处 理 字符 串 的 强大 工具 ， 拥 有 自己 独特 的 语法 以 及 独立 的 处 理 引 擎 。 
它 是 计算 机 语言 常会 涉及 的 内 容 ， 在 不 同 语言 中 会 由 不 同 的 方式 调用 ， 在 Python 中 是 由 re 
模块 处 理 的 。 
本 章 的 主要 内 容 是 : 
@ 正则 表达 式 的 介绍 : 主要 从 概念 和 构成 进行 讲解 ， 从 而 能 够 正确 使 用 正则 表达 式 进 
行 日 常 应 用 。 
@ Python 中 的 正则 模块 介绍 : 通过 re 模块 的 基础 应 用 掌握 Python 处 理 字符 串 的 方 
法 
@ 常用 正则 表达 式 的 使 用 : 目的 是 熟练 使 用 正则 表达 式 进 行 字符 串 处 理 。 


正则 表达 式 简 介 


本 节 首 先 介绍 正则 表达 式 的 基本 概念 〈 理 解 概念 是 学 习 正 则 表达 式 构成 的 基础 ) ， 然 后 
通过 对 正则 表达 式 的 构成 讲解 熟练 掌握 基本 正则 表达 式 的 规则 。 


12.1.1 正则 表达 式 概 念 

正则 表达 式 作为 计算 机 科学 的 一 个 概念 ， 通 常 被 用 来 检索 、 蔡 换 那 些 符合 某 个 规则 的 文 
本 。 正 则 表达 式 是 对 字符 串 操作 的 一 种 逻辑 公式 ， 用 事先 定义 好 的 规则 字符 串 对 字符 串 进行 
过 滤 逻 辑 处 理 。 

从 本 质 上 讲 ， 正 则 表达 式 是 一 种 小 型 的 、 高 度 专业 化 的 编程 语言 。 在 Python 中 ， 正 则 表 
达 式 通过 re 模块 实现 。 正 则 表达 式 可 以 先 给 匹配 的 相应 字符 串 集 (该 字符 串 集 可 能 包含 英文 
语句 、e-mail 地 址 、shell 命令 ) 指定 规则 ， 再 通过 re 模块 以 某 些 方式 来 修改 或 分 割 字符 串 。 

正则 表达 式 模式 先 被 编译 成 一 系列 的 字 节 码 ， 再 由 用 C 语言 编写 的 匹配 引擎 执行 ， 所 以 
从 某 程度 上 说 比 直接 写 Python 字符 串 处 理 代码 快 些 ， 但 是 并 非 所 有 字符 串 处 理 都 能 用 正则 表 
达 式 完成 。 即 使 有 些 处 理 可 以 使 用 正则 表达 式 完成 ， 也 会 使 表达 式 变 得 异常 复杂 ， 可 读 性 很 


























































































































差 ， 甚 至 过 后 连 自己 也 看 不 懂 了 。 碰 到 这 种 情况 ， 建 议 编写 Python 代码 ， 毕 竟 一 段 Python 


代码 比 一 个 精巧 的 正则 表达 式 要 更 容易 理解 。 





12.1.2 ”正则 表达 式 构成 


正则 表达 式 由 两 种 字符 构成 : 一 种 是 在 正则 表达 式 中 具有 特殊 意义 的 








“元 字符 ”， 另 一 


























种 是 普通 字符 。 这 里 的 “字符 ”可 以 是 一 个 字符 ， 如 “^”; 也 可 以 是 一 个 字符 序列 ， 如 
“\w”。 表 12-1 列 出 Python 支持 的 正则 表达 式 元 字符 及 语法 。 
表 12-1 正则 表达 式 元 字符 及 语法 
语法 说 明 表达 式 实例 实例 匹配 的 字符 串 
一 般 字 符 匹配 自身 Abc abc 
匹配 除了 换行 符 “\m” 以 外 的 任意 一 个 字 | ac aac/abc/acc 
符 ， 在 DOTALL 模式 中 也 能 匹配 换行 符 
和 转 义 字符 ， 使 后 一 个 字符 串 改变 原来 的 意 | ab\. ab. 
思 ， 比 如 字符 串 中 有 “* ”需要 匹配 ， 可 以 
使 用 “\*” 或 “[*]” 
abcd 匹配 “a”“b”“c” 或 “d” abc a/b/c 
[0-9] 匹配 0~9 中 任意 一 个 数字 ， 等 价 于 | [0-3] 0/1/2/3 
0123456789; 
[4e00-\n9fa5] | 匹配 任意 一 个 汉字 [\u4e00-\n9fa5] 匹 / 配 / 任 / 意 / 一 /个 / 
汉 / 字 
[^ao=2] 匹配 除 “a”“0”“=”“2” 外 的 其 他 任 | [^ao=2] b/e/L14 人 
意 一 个 字符 
az 匹配 除 小 写字 母 外 的 任意 一 个 字符 az A/B/^ 









































匹配 任意 一 个 数字 ， 相 当 于 [0~9] alc/a0c/a2c 
\D 匹配 任意 一 个 非 数 字 字 符 ， 相 当 \d 的 取 | aDc abc/adc/aec 
反 ， 即 [*0~9] 
's 匹配 任意 空白 字符 ， 相 当 于 [aftv] avsb abla b 
\S 匹配 任意 非 空 白字 符 ， 相 当 于 \ 的 取 反 ， a\Sc abc/abbc 
即 [Aremvfvtvw] 
\w 匹配 任意 一 个 字母 、 数 字 或 下 划 线 ， 相 当 | avwc aac/a0c/a c 
于 [a-zA-Z0-9 ] 
VW 匹配 任意 一 个 非 字 母 、 数 字 或 下 划 线 ，\w | a\We a*c/a$c 
的 取 反 ， 相 当 于 [^a-zA-Z0-9 ] 
a 匹配 前 一 个 字符 0 次 或 无 限 次 abc* ab/abc/abccccc 
十 匹配 前 一 个 字符 1 次 或 无 限 次 abc+ abc/abcc/abcccccccc 
匹配 前 一 个 字符 0 次 或 1 次 abc? ab/abc 
{m} 匹配 前 一 个 字符 m 次 ab{3}c abbbc 
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( 续 表 ) 
































语法 说 明 表达 式 实例 实例 匹配 的 字符 串 
{m.n} 匹配 前 一 个 字符 mm 到 n 次, m 和 可 以 省 | ab{1.2}c abc/abbc 
略 : 省 略 m， 则 匹配 0 到 n 次; 省 略 n， 
则 匹配 m 到 无 限 次 
人 匹配 字符 串 的 开始 位 置 ， 不 匹配 任何 字符 ”| ^abc abc 
$ 匹配 字符 串 的 结束 位 置 ， 不 匹配 任何 字符 abcy$ abc 
人 仅 匹 配 字符 串 的 开始 位 置 \Aabc abc 
匹配 \w 和 \W 之 间 avblbc albc 
\B Vb 的 取 反 a\Bbc abc 
这 仅 匹配 字符 串 的 结束 位 置 abc\Z abc 









(?P<name>...) 





\<number> 


(2iLmsux) 


(2(id/name)yes- 


patternlno- 








attern) 





















子 表达 式 之 间 “ 或 ”关系 匹配 
匹配 分 组 
匹配 分 组 ， 除 了 原 有 编号 外 再 指定 一 个 额 
外 的 别名 
匹配 引用 编号 为 <number> 的 分 组 到 字符 串 
中 
匹配 引用 别名 为 <name> 的 分 组 到 字符 串 中 


匹配 不 分 组 的 (...)， 后 接 数 量词 
iLmsux 的 每 一 个 字符 代表 一 个 匹配 模式 ， 
只 能 用 于 字符 串 的 开始 位 置 ， 可 选 多 个 
# 后 的 内 容 将 作为 注释 被 忽略 
匹配 编号 为 id 或 别名 为 name 的 组 ， 需 要 
匹配 yes-pattem， 否 则 需要 匹配 no-pattern 

































?Dabc 


abc(?#comment)123 
Qd)abc(?(1)\dlabc) 





abc/def 
abcabcabc 
abcabc 






labcl/3abc3 


2abc2/4abc4 


labc2/abcabc 





从 表 12-1 可 以 看 出 只 是 单一 针对 字符 串 匹 配 ， 可 在 实际 应 用 中 是 多 种 单一 匹配 的 组 合 ， 
因此 ， 建 议 读 者 认真 掌握 ， 以 便 在 Python 开发 时 能 顺手 拿 来 用 上 。 对 于 读者 而 言 ， 介 绍 这 么 
多 其 实 是 很 枯燥 的 ， 接 下 来 将 结合 Python 中 的 re 模块 进行 讲解 ， 以 便于 读者 熟 掌握 。 


本 节 主 要 介绍 re 模块 的 常 





处 理 字符 串 。 








re 模块 的 简单 应 用 


























Python 自 1.5 版 本 起 才 增 力 











功能 函数 ， 然 后 通过 这 些 函 数 调用 正则 表达 式 元 字符 及 语法 


了 re 模块 ， 它 提供 如 Perl 风格 的 正则 表达 式 模式 。 可 以 在 
Python 安装 目录 下 Lib 目录 中 找到 re py 文件 (re 模块 ) 。 
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re 模块 内 嵌 在 Python 中 ， 因 此 可 以 直接 导入 。 查 看 re 版 本 及 属性 方法 函数 的 方式 如 下 : 


>>> import re 





>2>Ie Nersion 
i 


2 Te 

[ “match", "search", "sub", "subn", "split", "findall", "Compile" "purge", 
"template", "escape"™, "I", “L", "M", "S", "X", "U", “IGNORECASE", "LOCALE", 
"MULTILINE", "DOTALL", “VERBOSE","UNICODE", “error" ] 


从 上 述 代码 可 以 看 出 ，re 模块 涉及 的 函数 并 不 多 ， 功 能 一 是 查找 文本 中 的 模式 、 二 是 编 
译 表 达 式 、 三 是 多 层 匹 配 ， 同 时 还 定义 了 一 些 常量 。 

查找 文本 中 的 模式 主要 使 用 search0 函 数 。 该 函数 有 pattem、string、flags 共 3 个 参数 : 
pattern 表示 编译 时 用 的 表达 式 字符 串 ，string 表示 用 于 匹配 的 字符 串 ，flags 表示 编译 标志 
位 ， 用 于 修改 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 多 行 匹 配 等 ， 默 认 值 为 0。 常 用 
的 flags 如 表 12-2 所 示 。 








表 12-2 常用 的 flags 及 其 含义 





标志 

使 “.” 匹 配 包括 换行 在 内 的 所 有 字符 
使 匹配 对 大 小 写 不 敏感 

做 本 地 化 识别 《locale-aware)IE 配 等 
多 行 匹配 ， 影 响 ^ 和 $ 









PN 








re.X(VERBOSE) 通过 给 予 更 灵活 的 格式 以 便 将 正则 表达 式 写 得 更 易于 理解 
Te.U 根据 Unicode 字符 集 解析 字符 ， 影 响 \w、\W、\b、\B 





re.search0 函 数 通 过 模式 (模板 内 容 ) 和 要 扫描 的 文本 作为 输入 ， 返 回 匹 配对 象 。 如 果 未 
找到 匹配 模式 则 返回 None。 


>>> import re 
>>> pattern = "模块 " 
>>> string = "如 何 学 习 re 模块 ? 多 多 实践 操作 !" 


>>> match = re.search(pattern, string) 














>>> match.start () 


>>> match.end() 
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>>> string[6:8] 
:模块 ， 
>>> match 


<_sre.SRE Match object; span=(6, 8), match=" 模块 '> 


从 如 上 代码 可 以 看 出 match 为 返回 的 匹配 对 象 ， 包 含 了 有 关 匹 配 性 质 的 信息 。 例 如 ， 使 




















上 








匹配 的 正则 表达 式 ， 模 式 在 原 字符 串 中 出 现 的 位 置 ， 具 有 start0、end0、 group()、span()、 





groups() 等 方法 。start0 方 法 返回 匹配 开始 的 位 置 ， end0 方 法 返回 匹配 结束 的 位 置 ，group0 方 
法 返回 被 匹配 的 字符 串 ; span0 方 法 返回 一 个 包含 匹配 (开始 ， 结 束 ) 位 置 的 元 组 ; groupsO 
方法 返回 一 个 包含 正则 表达 式 中 所 有 小 组 字符 串 的 元 组 ， 从 1 到 所 含 的 小 组 号 ， 通 常 不 需要 
参数 ， 返 回 一 个 元 组 (元 组 中 的 元 就 是 正则 表达 式 中 定义 的 组 ) 。 除 此 之 外 还 有 一 个 
group(n,m) 方 法 ， 返 回 组 号 为 n,m 所 匹配 的 字符 串 ， 若 组 号 不 存在 则 报 indexError 错误 。 























>>> print (re.search("([0-9]*) ([a-z]*) ([0-9]*)","123abc456') .group (0)) 
123abc456 
>>> print(ressearch(" IO=9] 二 Ja 一 莹 ] 二 JEUO=91x) 7 "123abc456”") .group(1)) 
Rs 
>>>° print(res search( (LO=9]*) Va=z]* Yt0=91*y L233aDbc4a5G6) roup(2)) 
abc 
>>> print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group (3)) 
456 
>>> print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group ()) 
123abc456 
>>> Print (re search( (0=90]*) (La=zI*) (C0=91*)" -L123abc456) .groups()) 
(E23 abcy, “456") 


编译 正则 表达 式 使 用 compile0 函 数 。 该 函数 返回 一 个 对 象 模式 ， 有 两 个 参数 ， 分 别 为 





pattem、flags=0， 其 含义 与 search0) 函 数 中 介绍 的 一 样 。 将 正则 表达 式 编译 成 正则 表达 式 对 
象 ， 可 以 提供 执行 效率 。 


>>> string =" 如 何 学 习 re 模块 ? 如 何 学 习 flask 开发 ， 如 何 学 习 Python 开发 进行 大 数 
eA 

>>> pattern = re.compile(' 如 何 ') 

>>> match = pattern.search (string) 


>>> print (match.group()) 


如 何 


上 述 代 码 通 过 compile0 编 译 “如 何 ” 字 符 串 模式 。 通 常 编译 的 表达 式 都 是 程序 频繁 使 用 


的 表达 式 ， 这 样 编译 起 来 会 更 为 高 效 ， 当 然 也 会 开销 一 些 缓存 。 使 用 已 编译 的 表达 式 还 有 一 
个 好 处 ， 即 在 加 载 模块 时 就 编译 所 有 表达 式 ， 而 不 是 当 程 序 相应 用 户 动作 时 才 进 行 编译 。 


函数 matchO 用 在 文本 字符 串 的 开始 位 置 匹配 。 


>>> print (re.match('cn','cnwww.baidu.com') .group ()) 
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表 。 


cn 


>>> print(re.match('cn','Cnwww.akaros.com', re.I) .group()) 


该 方法 并 非 完全 匹配 ， 比 如 pattem 'cn' 只 要 匹配 首次 出 现 的 “cn! 即 可 ， 无 须 在 平 其 后 是 
否 有 字符 囊 。 如 果 想 全 局 匹配 ， 可 以 在 表达 式 末尾 加 上 边界 匹配 符 号 。 : 


可 以 使 用 函数 findall0 进 行 遍历 匹配 ， 获 取 字 符 串 中 所 有 匹配 的 字符 串 ， 返 回 一 个 列 
search(O 用 于 查找 字符 串 的 单个 匹配 ，findallO 函 数 的 作用 与 参数 跟 search0 一 样 ， 但 它 返 





























回 所 有 匹配 且 不 重 登 的 子 字符 串 。 


>>> string ="'abbaaabbbbaaaaabbbaababcdabcdabdebababddfedf"' 
>>> pattern = "ab' 

>>> match = re.findall (pattern, string) 

>>> print (match) 

[rab', ab "ab', "ab', ‘ab', “ab', ‘ab', "ab', "ab'] 


函数 finditer0 的 使 用 方式 与 findall0 差 不 多 ， 也 是 3 个 参数 ， 返 回 一 个 迭代 器 。 它 将 生成 


Match 实例 ， 不 像 findall0 那 样 返 回 字符 串 。 例 子 12.1 将 演示 finditer0 的 使 用 。 
例子 12.1 finditer() 的 例子 
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>>> match = re.finditer(pattern, string) 
>>> print (match) 
<callable iterator object at Ox03DFS5FFO> 


>>> for i in match: 

print {iy 

print (i.group()) 

print (i.span()) 
<_sre.SRE Match object; span=(0, 2), match='ab'> 
ab 
(0, 2) 
<_sre.SRE Match object; span=(5, 7), match='ab'> 
ab 
(5, 7) 
<_sre.SRE Match object; span=(14, 16), match='ab'> 
ab 
(14, 16) 
<_sre.SRE Match object; span=(19, 21), match='ab'> 
ab 
1 2 
<_ sre.SRE Match object; span=(21, 23), match='ab'> 
ab 


人 2 

<_sre.SRE Match object; span=(25, 27), match='ab'> 
ab 

(5 27 

<_sre.SRE Match object; span=(29, 31), match="'ab'> 
ab 

2 LY 

<_sre.SRE Match object; span=(34, 36), match='ab'> 
ab 

(34, 36) 

<_sre.SRE Match object; span=(36, 38), match='ab'> 
ab 

(36, 38) 


除了 上 述 介绍 的 查找 、 编 译 、 匹 配 ， 还 可 以 利用 re 模块 的 splitO 方 法 进行 分 割 、subO 和 
subn() 进 行 蔡 换 。 


@ re.split0) 按 照 能 够 匹配 的 子 字符 串 将 需 匹 配 的 字符 串 进行 分 割 ， 返 回 列表 ， 参 数 有 
patterm、string 等 。 

>>> Print (re.split('\d+', 'wolmen2shi3hao4peng5you6')) 

['wo', men', 'shi', "hao', 'peng', "'you', ''] 

@ re.sub(0 使 用 pattem 替换 string 中 每 一 个 匹配 的 子囊 后 返回 殖 换 后 的 字符 囊 。 格 式 为 
re.sub(pattern, repl, string, count)。 

@ re.subn() 返 回 替换 次 数 。 

S25 tring EL 学 :无 樟 = 

>>> print (re.sub(r'\st', '-', string)) 

学 -无 - 止 - 镜 

>>> print (re.subn('[1-2]'，' 学 习 '，'123456^%$#@!lqaz2wsx3edc4rfv')) 

(' 学 习 学 习 3456^%$#8@1! 学 习 qaz 学 习 wsx3edc4rfv'，4) 











关于 re 模块 的 应 用 就 介绍 到 这 里 ， 事 实 上 正则 表达 式 远 不 止 这 么 简单 ， 不 过 掌握 上 面 介 
绍 的 方法 后 ， 一 般 字 符 串 正则 处 理 还 是 比较 容易 解决 的 。 











常用 正则 表达 式 


前 面 介 绍 re.compileO 函 数 时 讲 过 ， 使 用 该 函数 预先 编译 好 的 正则 表达 式 〈 一 般 适 于 常用 
正则 表达 式 ) 来 提高 执行 效率 。 








节 





bs 
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在 正则 表达 式 元 字符 及 语法 中 ， 我 们 以 表格 的 形式 列举 了 正则 表达 式 的 基本 格式 及 语 
法 。 本 节 的 常用 正则 表达 式 无 非 就 是 在 元 字符 及 语法 的 基础 上 进行 扩展 应 用 。 
































12.3.1 常用 数字 表达 式 的 校 验 

数字 表达 式 校 验 主要 针对 文本 中 出 现 的 数字 进行 正则 表达 式 的 匹配 ， 下 面 将 讲解 一 些 常 
的 表达 式 ， 并 使 用 re 模块 对 其 进行 处 理 演示 。 

1. ^[0-9]*$ 

从 表 12-1 可 以 看 出 ， “人 ”匹配 开始 字符 串 开 始 位 置 ，“[0-9]” 匹 配 0~9 中 任意 一 个 数 
字 ， “*” 匹 配 前 一 个 字符 0 次 或 无 限 次 ，“$ ”匹配 字符 的 结束 位 置 。 综 上 所 述 ， 该 表达 式 
是 用 来 匹配 数字 的 ， 可 以 是 2， 也 可 以 是 22222222222222222222 。 


























>>> import re 
>>> num = re.search('^[0-9]*$', "1237) 


>>> print (num.group()) 
2 . Adfn}$ 
该 表达 式 匹配 的 是 n 位 数字 。 


>>> num = re.findall('^\d{3}$','224') 
>>> num 
| abd Ba | 


3. \d{n,}$ 
该 表达 式 匹 配 的 是 至 少 n 位 数字 。 
>> num EeeAEdnaaEUANGT3SSISE 4353") 
SB 
[853 
4. A\d{m,n}$ 
该 表达 式 匹 配 m 到 nm 的 数字 ，n 大 于 m。 
232num = Tes-findall( Na v4353°) 
SS 
| 
5. ^([1-9][0-9]”)+(.[0-9]H1,2})?$ 
该 表达 式 匹 配 最 多 带 两 位 小 数 的 数字 。^([1-9][0-9]9)$ 匹 配 的 是 非 零 开 头 的 数字 ， 而 ^(.[0- 
9]{1,2})?$ 匹 配 的 是 最 多 带 两 位 小 数 的 数字 。 


S>> nam = retindall( (DL olor nO ol 2 2 234.340) 
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>>> num 


P230 ue Sa 





分 组 得 到 的 返回 值 是 不 同 的 。 后 面 的 代码 会 进行 演示 。 





6. ^[0-9]+(.[0-9]{1,3})?$ 
该 表达 式 匹 配 1~3 位 小 数 的 正 实数 。 


>>> nm = re-tinadall( “Toor LO0 -SIL "233.23") 
>>> num 

| 全 | 

>>> Tum = re FlindalLl( UO -OE LOL Dy “293323 
>>> num 

DS eS 


两 次 模式 不 同 的 地 方 就 是 是 否 有 '0' ， 得 到 的 结果 有 所 不 同 。 
7.^[1-9]vd*$ 
该 表达 式 匹配 非 零 的 正 整 数 ， 注 意 “*” 匹 配 的 是 前 一 个 字符 ， 而 且 匹 配 非 零 正 整数 的 表 


达 式 可 以 有 多 种 表现 形式 ， 比 如 和 \+?[1-9][0-9]*$。 


题 。 


>>> num = re.findall('^[1-9]\d*$', '344') 

>>> num 

['344'] 

>>> num = re.findall('^\+?[1-9] [0-9]*$', '344') 
>>> num 

['344'] 


常用 数字 表达 式 有 很 多 ， 本 小 节 就 介绍 到 这 里 。 读 者 可 以 举一反三 ， 解 决 更 多 的 相关 问 














12.3.2 ”常用 字符 表达 式 的 校 验 


在 文本 分 析 中 ， 常 常会 涉及 字符 表达 式 的 处 理 ， 比 如 提取 某 些 汉 字 、 对 长 度 为 多 少 的 字 


符 进行 删除 等 。 接 下 来 我 们 将 以 一 些 基 本 的 字符 表达 式 进行 阐述 。 


1. 汉字 的 匹配 
在 Python 2.X 中 匹配 需 转化 UTF-8 编码 ， 在 Python 3.X 中 则 无 须 考虑 这 个 问题 。 汉 字 的 





编码 范围 为 \u4e00 ~ \u9fa5。 如 果 想 匹配 1~3 个 汉字 的 字符 串 ， 如 何 操作 呢 ? 


>>> import re 


>>> test="my name is 你 好 吗 ，how are you?" 
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>>> result = re.findall('[\u4e00-\u9fa5] {1,3}',test) 
>>> result 


[' 你 好 吗 '] 
2. 英文 和 数字 的 匹配 


英文 和 数字 的 匹配 可 以 使 用 ^[A-Za-z0-9]+$， 如 果 想 抽取 某 些 字符 串 文 本 的 英文 数字 该 如 
何 操作 呢 ? 例子 12.2 演示 一 下 英文 和 数字 的 匹配 。 


例子 12.2 英文 和 数字 的 匹配 








>>> test = "我 的 名 字 是 张三丰 ， 我 的 吉祥 数字 是 886，Hai!" 

>>> result = re.findal1('[RA-2Za-ZzZ0-9]+'vtest) 

>>> TesUult 

"886"s Hai 

>>> result = re.findall('[A-Za-z]+',test) 

>>> result 

| 

>>> result = re.findall(' [A-Z]+',test) 

>>> rESULE 

rH'] 

>>> result = re.findall('[a-z0-9]+',test) 

>2> result 

oo, ad 

>>> result = re.findall('[A-20-9]+',test) 

>>> result 

188677 "HS] 

3 中文、 英文 、 数 字 和 某 些 字符 的 匹配 

@ 匹配 由 数字 、26 个 英文 字母 或 者 下 划 线 组 成 的 字符 串 可 以 使 用 A\w+9$。 

@ 匹配 中 文 、 英 文 、 数 字 和 包括 下 划 线 可 以 使 用 ^[\u4E00-\u9FA5A-Za-z0-9_]+$。 

@ 匹配 中 文 、 英 文 、 数 字 但 不 包括 下 划 线 等 符号 可 以 使 用 ^[\u4E00-\u9FA5A-Za-z0- 
9]+$。 

@ ”匹配 可 以 输入 含有 ^%&",;=?$\" 等 字符 的 表达 式 可 用 [^%&',;=?$\x22]+。 

>>> test ="Wo name is 张三丰 ， 可 以 这 样 拼 : Zzhang_san_feng, 我 的 手机 号 是 86-1 


和 
>>> result = re-findall('[\u4E00-\u9FA5RA-Za-Zz0-9_]+"vtest) 





>>> result 

['Wo'，'name'，'is'，' 张 三 丰 '，' 可 以 这 样 拼 '，'Zhang_san_feng '，' 我 的 手 

机 号 是 86'，'123123XxX'] 

从 代码 结果 看 出 ， 对 文本 的 处 理 是 以 空格 作为 分 隔 符 的 ， 根 据 匹配 规则 可 以 得 知 “-” 是 
无 法 匹配 的 ， 因 此 返回 的 结果 不 会 出 现 “-”。 
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12.3.3 ”特殊 需求 表达 式 的 校 验 
在 网 站 注册 页 面 上 常常 会 出 现 输入 用 户 名 、 密 码 及 E-mail 等 ， 当 输入 的 邮箱 不 含 “@” 


符号 时 ， 网 页 就 会 提示 输入 E-mail 地 址 错误 ， 这 个 过 程 其 实 就 是 一 个 正则 表达 式 的 处 理 。 下 
面 就 这 些 特殊 需求 的 表达 式 校 验 进行 一 个 总 结 。 


1. E-mail 地 址 


E-mail 处 理 的 表达 式 使 用 方式 为 入 w+([-+.] 人 w+*@\Ww+([-.] 人 ww+([-.J 人 w+)*$ 。 例 子 
12.3 演示 该 表达 如 何 验证 输入 的 E-mail 是 否 正确 。 


例子 12.3 ”E-mail 地 址 的 校 验 











>>> import re 


>>> test = "nontom@gmail .com" 

>>> testl = "nontomgmail .com" 

>>> test2 = "nontom@gmail" 

>>> result = re.match('^\wt+t([-+.]\w+)*@\w+([-.]\wt)*\.\wt([-.]\w+)*$',test) 


>>> print (result.group()) 

nontom@gmail .com 

>>> result = re.match('^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([— 
.]Nw+)*Srrtest1l) 

>>> Print (result.group() ) 


AttributeError Traceback (most recent call last) 
<ipython-input-9-666d063f295f> in <module>() 
=----> 1 Print (result.group()) 


AttributeError: 'NoneType' object has no _ attribute 'group' 


>>> result = re.match('^\wt+([-+.]\w+)*@\w+t([-—.]\w+)*\.\wt+t([-.]\w+)*$',test 
st 


>>> print (result.group()) 


AttributeError Traceback (most recent call last) 
<ipython-input-13-666d063f295f> in <module>() 
= 一 = 一 > 1 peint(resuLt.grout()}) 


AttributeError: 'NoneType' object has no _ attribute 'group' 


从 上 述 代 码 就 可 以 看 出 ， 对 于 testl 和 test2， 由 于 它 不 是 标准 的 E-mail， 不 匹配 正则 表达 
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式 规 则 Aw+([-+.JNwH)*G@Nw+([-. w+T)sNNVw+([-.JNw+H*S ， 因 此 执行 它 会 报 AttributeError 错误 。 
2. 域名 


我 们 所 看 到 的 baidu.com 就 是 所 谓 的 域名 ， 判 断 是 否 是 一 个 有 效 的 域名 正则 表达 式 是 
(29D^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}$ 。 若 想 在 一 段 长 文本 中 找到 有 效 的 域名 ， 则 可 使 用 
(9iN\b([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z] {2.}\b。 





>>> test = "baidu.com" 
>>> result = re.match(' (2?i)^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z] {2,}$',test) 
>>> print (result.group()) 


baidu.com 


3. 手机 号 码 


中 国 的 手机 号 码 为 11 位 ， 而 且 一 般 是 以 13、14、15、17、18 等 开头 ， 因 此 可 以 确定 的 
是 开头 为 1， 第 二 位 为 3、4、5、7、8， 则 其 表达 式 可 为 1[3458]\d{9}。 

>>> test = "12315632143 13213213211 54234432521 14345433333 182345345654" 

>>> result = re.findall('1[3458] \\d{9}', test) 

>>> result 

S2321321E 0 LA3A45433333 Ur "0234534565>] 


4. 身份 证 号 

一 般 身份 证 号 码 为 15 位 或 18 位 。15 位 的 以 xxxxxxYYMMddxxx 形式 出 现 ， 前 六 位 表示 
地 区 ，YY 表示 年 份 ，MM 表示 月 份 ，dd 表示 天 数 ， 接 着 的 xx 表示 顺序 码 ， 最 后 的 x 表示 校 
验 码 ， 正 则 表达 式 则 为 ^[1-9Nd{53\q{2}((O[1-9]D)I(10|11|12))(([0-2][1-9])|10|20|30|31)d{2}$。18 
位 的 以 xxxxxxYYYYMMddxxxx 形式 出 现 ， 年 份 是 四 位 的 ， 顺 序 码 是 三 位 的 ， 而 且 校 验 码 可 
以 取 x 或 X， 正则 表达 式 为 ^[1-91\d{5}(18|19|([231\q)Mq{2}(CO[1-9DIQ0l11|12)C[0-2][1- 
9])|10|20|30|31N\qd{3}[0-9Xx]$8， 最 后 综合 为 (^[1-9]\d{5}(18|19|([23]\d))d{2}((0[1-9])|(10|11|12)) 
(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)IC[1-9N\d{57\d{2}(CO[1-9D)I(10|11|12))C([0-2][1-9])|10|20| 
30|31)\d{2}$)。 

>>> r = r'^([1-9]\d{5}[12]\d{3} (0[1-9] 11[012]) (0[1-9]1[12] [0-9] 13[01])\a{3 

: }[0-9xx])$" 
>>> result = re.findall(r, '43052419020202000x') 


>>> result 
[('43052419020202000x', '02', '02')] 


5. 邮 政 编码 
中 国 的 邮政 编码 是 6 位 ， 相 比 来 说 它 的 正则 表达 式 比较 简单 ， 为 [1-91M\d{5}(?N\d) 。 
>>> test = "12343 234532 34533 532345" 


>>> result = re.findall('[1-9]\d{5} (?!\d)',test) 
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>>5 result 


["234532”, "532345"] 


6 .空白 正则 表达 式 


在 文本 处 理 中 常常 需要 进行 删除 空白 行 、 删 除 行 首尾 空白 等 操作 。 空 白 行 的 正则 表达 式 
为 ms* ， 首 尾 空白 字符 的 正则 表达 式 为 As*l\s*$ 或 (slICs*$)。 


>>> rest =" 


-.-: 很 重要 的 








好 好 学 习 正 则 表达 式 对 你 进行 某 些 数据 正确 与 否 分 析 显 得 


>>> result = re.sub('\s*|\s*','',rest) 


>>> result 


' 好 好 学 习 正则 表达 式 对 你 进行 某 些 数 据 正 确 与 否 分 析 显 得 很 重要 的 ' 


常用 正则 表达 式 就 介绍 到 这 里 ， 读 者 可 以 根据 自己 的 开发 需要 进行 相应 的 正则 表达 式 的 
总 结 和 收藏 ， 以 便于 后 续 的 开发 引用 。 














12.4 本 章 


小 结 


正则 表达 式 re 模块 在 Python 中 虽然 体积 不 大 ， 但 是 地 位 非常 重要 。Python 的 re 模块 功 


EE 只 


任何 特征 的 数据 。 


只 有 一 个 一 一 过 滤 ， 从 目 机 


示 中 过 滤 出 所 需 的 数据 。 通 过 函数 组 合 ， 可 以 从 字符 串 中 过 滤 出 
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3 章 


] 
络 编程 > 


3 


网 络 编程 属于 Python 非常 重要 的 内 容 ， 我 们 使 用 Python 进行 项 目 实战 开发 时 无 不 涉及 
网 络 编程 。Python 提供 网 络 底层 接口 的 主要 来 自 socket 模块 ， 而 且 适 用 于 各 种 主流 系统 平 
台 。 当 然 某 些 特性 的 调用 可 能 会 使 用 操作 系统 的 socket APIs 进行 。 
本 章 的 主要 内 容 是 : 
@@ 网络 编程 理论 : 通过 对 网 络 协议 、IP 地 址 和 端口 、socket 的 讲述 来 增强 对 网 络 知识 
的 了 解 ， 明 白 网 络 通信 是 如 何 进行 操作 的 。 
@@ TCP: 讲述 TCP， 用 示例 演示 如 何 实现 TCP 服务 端 及 客户 端 ， 完 成 对 网 络 之 间 数 据 


流 的 传输 。 
@ UDP: 讲述 UDP， 用 示例 演示 如 何 实现 UDP 服务 端 及 客户 端 ， 完 成 基于 UDP 网 络 
数据 的 传输 。 


网 络 编程 理论 基础 


网 络 编程 的 理论 基础 是 网 络 通信 《在 一 系列 网 络 协议 中 进行 ) 。TCPJP 协议 可 以 说 是 我 
们 最 为 熟知 的 网 络 协议 。 


13.1.1 网 络 协议 

网 络 协议 是 计算 机 网 络 数据 进行 彼此 交换 而 建立 起 的 规则 、 标 准 或 约定 的 集合 。 通 俗 地 
说 就 是 计算 机 网 络 中 设备 彼此 之 间 交 流 的 方式 ， 正 如 我 们 交流 使 用 的 普通 话 ， 就 是 一 种 网 络 
协议 。 网 络 协议 由 3 部 分 组 成 : 语义、 语法、 时序。 其中， 语义 用 来 解释 控制 信息 每 个 部 分 
的 意义 ， 语 法 是 用 户 数据 与 控制 信息 的 结构 与 格式 ， 以 及 数据 出 现 的 顺序 ， 时 序 是 对 事件 发 
生 顺 序 的 详细 说 明 。 可 以 这 样 形象 地 描述 语义 表示 要 做 什么 ， 语 法 表示 要 怎么 做 ， 时 序 表 
示 做 的 顺序 。 














基于 网 络 节点 之 间 联 系 的 复杂 性 ， 在 制定 网 络 协议 时 ， 会 通过 一 些 层次 结构 来 简化 彼此 
之 间 的 联系 。 国 际 标准 化 组 织 (ISO) 在 1978 年 提出 了 “开放 系统 互联 参考 模型 ”， 即 著名 
的 OSIRM 模型 (Open System Interconnection/Reference Model) 。 它 将 网 络 协议 划分 为 七 
层 ， 自 下 而 上 依次 为 : 物理 层 (Physics Layer) 、 数 据 链 路 层 (Data Link Layer) 、 网 络 
(Network Layer) 、 传 输 层 (Transport Layer) 、 会 话 层 (Session Layer) 、 表 示 
(Presentation Layer) 、 应 用 层 (Application Layer) ， 具 体 如 表 13-1 所 示 。 














凋 疝 


表 13-1 计算 机 网 络 协议 OSVRM 模型 








层 次 名 称 功能 描述 

第 7 层 应 用 层 负责 网 络 中 应 用 程序 与 网 络 操作 关系 之 间 的 联系 ， 例 如 : 建立 和 结 
(Application) 束 使 用 者 之 间 的 连接 ， 管 理 建立 相互 连接 使 用 的 应 用 资源 

第 6 层 表示 层 用 于 确定 数据 交换 的 格式 ， 它 能 够 解决 应 用 程序 之 间 在 数据 格式 上 
(Presentation) 的 差异 ， 并 负责 设备 之 间 所 需要 的 字符 集 和 数据 的 转换 


第 5 层 会 话 层 (Session) 用 户 应 用 程序 与 网 络 层 接 口 ， 它 能 够 建立 与 其 他 设备 的 连接 (会 
话 ) ， 并 且 能 够 对 会 话 进行 有 效 的 管理 


第 4 层 传输 层 提供 会 话 层 和 网 络 层 之 间 的 传输 服务 ， 该 服务 从 会 话 层 获得 数据 ， 
(Transport) 必要 时 对 数据 进行 分 割 ， 然 后 将 数据 传递 到 网 络 层 ， 并 确保 数据 能 
正确 无 误 地 传送 到 网 络 层 


第 3 层 网 络 层 (Network) 能 够 将 传输 的 数据 封包 ， 然 后 通过 路 由 选择 、 分 段 组 合 等 控制 ， 将 
信息 从 源 设备 传送 到 目标 设备 

第 2 层 数据 链 路 层 (Data 主要 是 修正 传输 过 程 中 的 错误 信号 ， 它 能 够 提供 可 靠 的 通过 物理 介 
Link) 质 传输 数据 的 方法 

第 1 层 物理 层 (Physical) 利用 传输 介质 为 数据 链 路 层 提供 物理 连接 ， 规 范 了 网 络 硬件 的 特 
性 、 规 格 和 传输 速度 


网 络 协议 中 最 为 重要 的 无 非 是 TCP/IP 协议 ， 它 是 互联 网 的 基础 协议 ， 没 有 它 ， 就 无 法 
上 网 聊天 看 视频 了 。 当 然 ， 除 了 这 些 还 有 UDP、ICMP、HTTP、DNS 协议 等 ， 如 果 想 了 解 更 
多 的 内 容 ， 建 议 查 看 相关 协议 文档 。 

TCP/IP 协议 不 是 TCP 和 IP 协议 的 合 称 ， 是 因特网 整个 网 络 TCP/IP 协议 徐 。 这 个 协议 入 
的 体系 结构 并 不 完全 符合 OSI 七 层 参考 模型 ， 由 4 个 层次 组 成 : 网 络 接口 层 、 网 络 层 、 传 输 























民 、 应 用 层 。 与 OSI 模型 对 应 关系 如 表 13-2 所 示 。 


表 13-2 TCP/IP 结构 与 OSI 模型 结构 对 应 关系 
TCP/IP 0S1 

















应 用 层 (Telnet、FTP、HTTP、DNS、SNMP 和 SMTP 等 ) 表示 层 


























会 话 层 
传输 层 CTCP 和 UDP) 传输 层 
网 络 层 (IP、ICMP 和 IGMP) 网 络 层 
数据 链 路 层 
慨 〈 以 太 网 、 令 牌 环 网 、 
网 络 接口 层 〈 以 太 网 、 令 牌 环 网 、EDDI、IEE802.3 等 ) 物理 层 
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至 于 每 层 的 功能 及 其 包含 的 协议 定义 ， 请 查找 相关 资料 进行 了 解 。 


13.1.2 IP 地址 与 端口 


IP〈Internet Protocol) 是 计算 机 网 络 相 互 连 接 进行 通信 而 设计 的 协议 ， 位 于 TCP/IP 协议 
簇 结 构 体 系 网 络 层 中 。 它 是 所 有 计算 机 网 络 实现 相互 通信 的 一 套 规则 ， 规 定 了 计算 机 在 因 特 
网 上 进行 通信 时 应 当 遵 守 的 规则 。 因 此 ， 任 何 计 算 机 系统 只 要 遵守 IP 协议 就 可 以 与 因特网 互 
连 互通 。 也 正 是 如 此 ， 因 特 网 才 得 以 迅速 发 展 成 为 世界 上 最 大 的 、 开 放 的 计算 机 通信 网 络 。 
卫 协议 也 可 以 叫 作 “因特网 协议 ”。 

IP 协议 是 利用 IP 地 址 在 主机 之 间 传 递 信息 ， 这 是 因特网 能 够 运行 的 基础 。 因 特 网 每 一 
台 主 机 都 有 一 个 唯一 的 IP 地 址 。IP〈( 指 IPv4) 地 址 的 长 度 为 32 位 (共有 2^32 个 I 地 
址 ) ， 分 为 4 段 ， 每 段 8 位 ， 用 十 进 制 数字 表示 ， 每 段 数字 范围 为 0 一 235， 段 与 段 之 间 用 名 
点 隔 开 ， 比 如 172.168.1.100。 卫 地 址 由 网 络 标识 号 码 与 主机 标识 号 码 两 部 分 组 成 ， 因 此 IP 
地 址 可 分 为 两 部 分 ， 一 部 分 为 网 络 地 址 ， 另 一 部 分 为 主机 地 址 。IP 地 址 分 为 A、B、C、D、 
E 五 类 ， 适 用 的 类 型 分 别 为 大 型 网 络 、 中 型 网 络 、 小 型 网 络 、 多 目地 址 、 备 用 ， 常 用 的 是 B 
和 C 两 类 。 

可 以 在 网 络 和 共享 中 心 打开 “本 地 连接 一 详细 信息 ”查看 ， 如 图 13.1 所 示 。 
































属性 值 ec 
连接 特定 的 DNS 后 弗 | 
指 述 Broadcom NetXtreme Gigabit Et 
物理 地 址 AC-87-A3-2F-F1-A4 
已 启用 DHCP 是 
IFv4 地 址 172. 168. 1. 100 
IPv4 子 网 挤 码 255. 255. 255.0 | 
获得 租约 的 时 间 2018 年 4 月 13 日 18:21:35 三 
租约 过 期 的 时 间 2018 年 4 月 14 日 1:21:36 
IPv4 默认 网 关 172. 168.1.1 
IPv4 DHCP 服务 器 172. 168.1.1 
ITPv4 DNS 服务 器 192. 168.1.1 

172.168.1.1 
IPv4 WINS 服务 器 
已 启用 NetBIOS ove... 是 
连接 -本 地 IFv6 地 址 。 fe80: :1978:4443:6452: a49%15 
JP 里 认 网 关 
< nm | 6 

| 








图 13.1 了 P 地 址 查看 方式 一 
也 可 以 输入 cmd 进入 控制 台 ， 然 后 输入 ipconfig 查看 ， 如 图 13.2 所 示 。 
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图 13.2 IP 地 址 查看 方式 二 

IP 地 址 使 用 纯 数 字 的 话 不 便于 记忆 ， 通 常会 使 用 主机 名 来 代替 IP 地 址 ， 比 如 输入 
baidu.com 就 可 以 访问 百度 了 ， 至 于 baidu.com 是 如 何 解 析 到 IP 地 址 的 就 涉及 前 面 所 讲 的 
DNS 协议 了 。 

端口 〈 既 可 是 指 硬件 接口 ， 也 可 是 TCP/TIP 协议 中 的 端口 ) 是 计算 机 与 外 界 进行 通信 交 
流 的 出 口 。 这 里 讲述 的 端口 是 指 网 络 中 进行 通信 的 通信 协议 端口 ， 是 一 种 抽象 的 软件 结构 ， 
包含 一 些 数据 结构 和 基本 输入 输出 缓冲 区 。 端 口号 的 范围 为 0~65535， 任 何 由 TCP/IP 提供 的 
服务 皆 基 于 1~1023 之 间 的 端口 号 进行 通信 ， 由 IANA 分 配 管理 。 其 中 ， 低 于 255 的 端口 号 
保留 ， 用 于 公共 应 用 ; 255 到 1023 的 端口 号 用 于 特殊 应 用 ; 高 于 1023 的 端口 号 称 为 临时 端 
口号 ， 常 用 于 软件 服务 。 

常用 的 保留 TCP 端口 号 有 HTTP 80、FTP 20/21、Telnet 23、SMTP 25、DNS 53 等 。 














13.1.3 ”socket 套 接 字 

socket 是 网 络 通信 端口 的 一 种 抽象 ， 具 体 来 说 就 是 两 个 程序 通过 一 个 双向 通信 连接 实现 
数据 的 交换 ， 而 这 个 连接 的 一 端 就 是 一 个 socket。socket 也 称 作 “ 套 接 字 ”， 用 于 描述 IP 地 
址 和 端口 ， 是 一 个 通信 和 链 的 句柄 ， 可 以 用 来 实现 不 同 计算 机 之 间 的 通信 。 可 以 形象 地 描述 
socket 为 一 个 多 孔 插 座 ， 不 同 编号 的 插座 得 到 不 同 的 服务 。 

socket 是 应 用 层 与 TCP/IP 协议 簇 通信 的 中 间 软 件 抽 象 层 ， 是 架 在 应 用 层 与 传输 层 之 间 的 
桥梁 。socket 在 TCP/IP 协议 簇 中 的 位 置 示意 图 如 13.3 所 示 。 
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网 络 层 





图 13.3 socket 在 TCP/IP 协议 簇 中 的 位 置 示意 图 


在 Python 中， 可 通过 socket 模块 (提供 了 一 个 底层 的 C API) 实现 网 络 通 信 。 从 该 模块 
源码 可 以 看 出 ， 它 提供 了 一 系列 函数 、 特 殊 对 象 、 类 常量 等 。 其 中 ，socket 类 是 该 模块 中 最 
为 重要 的 概念 。 








socket 类 定义 如 下 : 

class socket(_ socket.socket): 

def _init (self, family=AF _ INET, type=SOCK STREAM, proto=0, fileno=None): 

pass 

从 定义 来 看 ，socket 类 是 _socket.socket 的 子 类 ， 根 据 给 定 的 地 址 簇 、 套 接 字 类 型 和 协议 
号 创建 一 个 新 的 socket。 套 接 字 是 通过 地 址 簇 (address family， 控 制 所 用 OSI 网 络 层 协 议 ) 
和 套 接 字 类 型 〈socket type， 控 制 传输 层 协议 ) 两 个 主要 属性 来 控制 如 何 发 送 数 据 的 。 

套 接 字 地 址 簇 的 可 取 值 有 AF_INET (默认 ) 、AF INIET6、AF_UNIX、AF_CAN 或 
AF RDS 等 。 常 用 的 是 AF_ INET， 用 于 IPv4 Intemet 寻 址 。AF_INIET6 用 于 IPv6 Internet 寻 
址 。AF_ UNIX 是 UNIX 域 套 接 字 (UDS) 的 地 址 徐 ， 是 一 种 POSIX 兼容 系统 上 的 进程 间 通 
信 协 议 。UDS 的 实现 通常 允许 操作 系统 直接 从 进程 向 进程 传递 数据 而 不 需要 通过 网 络 栈 ， 因 
此 这 比 AF_INET 更 为 高 效 。 
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套 接 字 类 型 可 以 为 SOCK_STREAM (默认 ) 、SOCK_DGRAM、SOCK RAW 或 者 其 他 
SOCK 中 的 某 个 常量 。SOCK _ STREAM 对 应 传输 控制 协议 (CTCP) 。TCP 传输 需要 握手 或 
其 他 设置 过 程 ， 因 此 能 够 确保 每 条 消息 只 传送 一 次 ， 而 且 是 按 正确 顺序 传送 ， 从 而 增加 了 可 
靠 性 ， 不 过 会 引入 额外 的 延迟 。UDP 则 相反 ， 传 送 没 有 顺序 ， 并 且 可 能 多 次 传送 或 者 不 传 
送 ， 适 用 于 对 顺序 不 太 重要 的 协议 或 者 用 于 广播 。 











由 socket 类 创建 的 socket 对 象 具有 一 系列 方法 及 属性 。 以 变量 sock 作为 返回 对 象 进行 总 

结 ， 如 表 13-3 所 示 。 
表 13-3， 套 接 字 方 法 /属性 及 其 描述 

客 称 描述 
服务 器 套 接 字 方 法 
将 地 址 《〈 主 机 名 、 端 口号 对 ) 绑 定 到 套 接 字 上 
被 动 接受 TCP 客户 端 连接 ， 一 直 等 待 直到 连接 到 达 (阻塞 ) 
客户 端 套 接 字 方 法 


connect0 的 扩展 版 本 ， 此 时 会 以 错误 码 的 形式 返回 问题 ， 而 不 是 抛 出 一 个 





sock.connect_ex() 



































普通 的 套 接 字 方 法 

sockrecv into0) 接收 TCP 消息 到 指定 的 缓冲 区 
sock.send() 发 送 TCP 消息 

sock.sendall0 完整 地 发 送 TCP 消息 
sock.recvfrom() 接收 UDP 消息 

sock.recvfrom into0) 接收 UDP 消息 到 指定 的 缓冲 区 
sock.sendtoO 发 送 UDP 消息 
sock.getpeername() 连接 到 套 接 字 (TCP) 的 远程 地 址 
Sock.getsockoptO 返回 给 定 套 接 字 选 项 的 值 
Sock.shutdownO 关闭 连接 

sock.shareO) 复制 套 接 字 并 准备 与 目标 进程 共享 
Sock.close0) 关闭 套 接 字 
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( 续 表 ) 











名 称 描述 
sock.detachO 在 未 关闭 文件 描述 符 的 情况 下 关闭 套 接 字 ， 返 回 文 件 描述 符 
sock.ioctl0 控制 套 接 字 的 模式 〈 仅 支持 Windows) 





面向 阻塞 的 套 接 字 方 法 
sock.setblocking() 设置 套 接 字 的 阻塞 或 非 阻塞 模式 
Sock.gettimeoutO 获取 阻塞 套 接 字 操 作 的 超时 时 间 
面向 文件 的 套 接 字 方 法 























sock .fileno0) 套 接 字 的 文件 描述 符 





sock.makefile() 创建 与 套 接 字 关联 的 文件 对 象 
数据 属性 

socket 模块 除了 socket 类 外 ， 还 有 一 些 功 能 函数 、 常 量 及 异常 。 这 里 仅 就 一 些 常 用 的 功 
能 函数 做 一 个 介绍 。 

(1) socket.socketpair0 函 数 根 据 给 定 的 地 址 簇 、 套 接 字 类 型 和 协议 号 创建 一 对 已 连接 的 
socket 对 象 。 








(2) socket.create_connection() 函 数 创 建 一 个 TCP 服务 监听 网 络 地 址 (一 维 数组 ( 主 
机 、 端 口 ) ) 的 连接 ， 并 返回 套 接 字 对 象 。 这 是 比 socket.connect0 更 为 高 级 的 函数 ， 如 果 主 
机 是 一 个 非 数 字 的 主机 名 ， 就 将 试图 解决 AF_INET 和 AF_INET6， 然 后 尝试 连接 所 有 可 能 的 
地 址 ， 直 到 连接 成 功 。 这 使 它 易 于 编写 客户 IPv4 和 IPv6 是 兼容 的 。 

〈3 ) socket.SocketType 为 套 接 字 对 象 类 型 的 Python 类 型 对 象 ， 等 同 于 
type(socket(...))。 

(4) socket.getaddrinfo0) 函 数 将 主机 /端口 参数 转换 为 五 元 组 序列 ， 包 含 创建 连接 该 服务 套 
接 字 的 所 有 参数 。 参 数 host 和 port 为 必 选 ， 参 数 type、proto、flags 皆 为 0。 


>>> import socket 

>>> socket .getaddrinfo("baidu.com", port=80) 

[(<AddressFamily.AF INET: 2>, 0, 0, '', ('220.181.57.216', 80)), 
(<AddressFamily.AF INET: 2>, 0, 0, '', ('123.125.115.110', 80))] 


从 返回 结果 可 以 很 清楚 域名 所 对 应 的 人 地 址 ， 不 过 也 可 以 得 知 百度 域名 对 应 的 卫 有 两 
个 ， 事 实 该 函数 返回 的 五 元 组 结构 如 下 : 
(family, type, proto, canonname, sockaddr) 


举例 来 看 : 
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>>> socket .getaddrinfo ("example-org"，80，Proto=socket.IPPROTO_TCP) 
[(<AddressFamily.AF INET: 2>, 0, 6€, '', ('93.184.216.34', 80))] 








从 上 面 两 个 实例 可 以 看 出 ，sockaddr 在 IPv4 上 是 一 个 二 元 组 (addess, port)， 在 IPv6 上 是 








一 个 四 元 组 (address, port, flow into, scope id)。 


(5) socket.getfqdn0 函 数 返回 限制 域名 名 称 。 如 果 参 数 name 为 省 略 或 为 空 ， 就 解释 为 本 


地 主机 。 代 码 如 下 : 


>>> socket .getfqdn() 
'DESKTOP-B97M55J" 

>>> socket .getfqdn('baidu.com') 
"baidu.com' 

>>> socket .getfqdn("'123.115.57.216') 
wh 5 


(6) socket.gethostbyname0) 函 数 将 主机 名 转换 为 IPv4 地 址 格式 。 参 数 hostname 既 可 为 主 


机 名 ， 也 可 为 IPv4 地 址 ， 为 IPv4 地 址 时 返回 不 变 。 





>>> socket .gethostbyname ('baidu.com') 
E225 

>>> socket .gethostbyname('123.125.115.110') 
23S Lo 


(7) socket.gethostbyname_ex() 将 主机 名 转换 为 IPv4 地 址 ， 返 回 一 个 三 元 组 (hostname， 


aliaslist，ipaddrlist)， 其 网 aliaslist 列表 可 能 为 空 ) 的 蔡 代 为 同一 地 址 ， 主 机 名 可 能 对 应 
ipaddrlist 的 元 素 不 只 一 


>>> socket .gethostbyname ex('baidu.com') 
tbaidu comr Ulr [123.125.115.1107 “220.181.57.216"]) 


从 代码 可 以 看 出 ， 主 机 baidu.com 对 应 了 两 个 卫 地 址 。 
(8) socket.gethostname(O 返 回 包含 机 器 主机 名 的 字符 串 ， 执 行 于 Python 解析 器 中 。 


>>> Socket .gethostname () 
' DESKTOP-B97M55J" 


更 多 情况 可 查看 表 13-4， 这 个 表格 对 整个 socket 模块 的 属性 、 异 常 、 方 法 做 了 小 结 
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表 13-4 ”socket 模块 属性 、 异 常 、 方 法 及 其 描述 





AF UNIX、 AF INET、AF INET6 、 

AF NETLINK 、 AF TIPC 

SO STREAM、 SO DGRAM 套 接 字 类 型 (TCP= 流 ，UDP= 数 据 报 ) 
指示 是 否 支持 IPv6 的 布尔 标记 


了 Python 中 支持 的 套 接 字 地 址 家 族 











套 接 字 相关 错误 
主机 和 地 址 相关 错误 
地 址 相关 错误 
超时 时 间 














以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 (可 选 ) 创建 一 个 套 接 字 
对 象 


aomao |g 个 打开 的 文件 描述 符 创建 一 个 套 接 字 对 象 
sl0 ”| 通过 套 接 字 启动 一 个 安全 套 接 字 层 连接 ， 不 执行 证 书 验 证 
getaddrinfo0 获取 一 个 五 元 组 序列 形式 的 地 址 信息 


|gemameinfo0 | 给 定 一 个 套 接 字 地 址 ， 返 回 ( 主 机 名 ， 端 口号 ) 二 元 组 

getdn0 | 返回 完整 的 域名 

gethostbyname0 的 扩展 版 本 ， 返 回 主机 名 、 别 名 主机 集合 和 卫 地 址 
列表 


gethostbyname_ex() 


将 一 个 人 P 地 址 映射 到 DNS 信息 ， 返 回 与 gethostbyname_exO 相 同 的 
三 元 组 

getprotobynameO) 将 一 个 协议 名 〈 如 'tcp') 映射 到 一 个 数字 

将 一 个 服务 名 映射 到 一 个 端口 号 ， 或 者 反 过 来 ， 对 于 任何 一 个 函数 来 
说 ， 协 议 名 都 是 可 选 的 

ntohlOmtohsO 将 来 自 网 络 的 整数 转换 为 主机 字 节 顺序 

htonlOmhtonsO 将 来 自主 机 的 整数 转换 为 网 络 字 节 顺序 

将 他 地 址 八进制 字符 串 转换 成 32 位 的 包 格 式 ， 或 者 反 过 来 〈 仅 用 
于 IPv4 地 址 ) 

将 人 P 地 址 字符 串 转换 成 打包 的 二 进 制 格式 ， 或 者 反 过 来 〈 同 时 适用 
于 IPv4 和 JIPv6 地 址 ) 

以 秒 〈 浮 点 数 ) 为 单位 返回 默认 套 接 字 超 时 时 间 ， 以 秒 ( 浮 点 数 ) 单 
位 设置 默认 套 接 字 超时 时 


gethostbyaddrO 








getservbyname()/getservbyport() 








inet_atonO/inet ntoa0) 





inet_ptonO/inet_ntopO 

















getdefaulttimeoutO/setdefaulttimeoutO 
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接 下 来 将 利用 socket 模块 处 理 网 络 程序 。 





使 用 TCP 的 服务 器 与 客户 端 


TCP (Transmission Control Protocol， 传 输 控制 协议 ) 是 一 种 面向 连接 的 、 可 靠 的 、 基 于 
字 节 流 的 传输 层 通 信 协 议 ， 由 IETF 的 RFC 793 定义 。 位 于 IP/TCP 模型 中 的 传输 层 是 处 在 P 
层 之 上 、 应 用 层 之 下 的 中 间 层 ， 因 此 数据 传 出 必须 经 过 了 人 P 层 。 

从 TCP 定义 来 看 ，TCP 协议 是 一 种 可 靠 的 协议 ， 用 于 在 不 可 靠 的 互联 网 络 上 提供 可 靠 、 
端 对 端的 字 节 流传 输 服 务 。 

当 应 用 层 向 TCP 层 发 送 用 于 网 间 传 输 、 用 8 位 字 节 表示 的 数据 流 ，TCP 则 把 数据 流 分 割 
成 适当 长 度 的 报 文 段 ， 然 后 将 离散 的 报 文 组 装 成 比特 流 。 为 了 保障 数据 的 可 靠 传 输 ， 会 对 从 
应 用 层 传送 到 TCP 实体 的 数据 进行 监管 ， 并 提供 了 重 发 机 制 和 流 控 制 。 


























13.2.1 TCP 工作 原理 

TCP 为 了 保证 数据 不 发 生 丢失 ， 对 传输 数据 按 字 节 进行 了 编号 ， 编 号 的 目的 是 为 了 保证 
传送 到 接收 端的 数据 能 够 按 序 接收 。 接 收 端 会 对 已 经 接收 的 数据 发 回 一 个 确认 。 若 发 送 端 在 
规定 时 间 内 未 收 到 有 编号 的 数据 ， 则 将 重新 传送 前 面 的 数据 。 

TCP 当然 并 不 会 像 我 们 一 样 使 用 顺序 的 整数 作为 数据 包 的 编号 ， 而 是 通过 一 个 计数 器 记 
录 发 送 的 字 节 数 。 举 个 例子 ， 如 果 数 据 流 被 切割 为 几 个 包 ， 其 中 某 个 包 大 小 为 1024 字 节 ， 序 
号 为 3600， 那 么 下 一 个 数据 包 的 序号 就 是 4624。 这 说 明 网 络 栈 无 须 记 录 数 据 流 是 如 何 分 割 成 
数据 包 的 。 而 且 TCP 初始 序列 号 是 随机 选择 的 ， 这 样 可 以 避免 TCP 序号 易于 猜测 而 伪造 数 
据 进 行 欺骗 或 攻击 。 

TCP 无 须 按照 数据 包 依 次 发 送 ， 可 以 一 次 性 发 送 多 个 数据 包 ， 同 时 通过 发 送 方 传输 的 数 
据 量 大 小 进行 减缓 或 暂停 ， 即 所 谓 的 流量 控制 。TCP 如 果 发 现 数 据 包 丢弃 ， 就 会 减少 每 秒 发 
送 的 数据 量 。 

根据 前 面 所 讲 的 socket 模块 ， 我 们 如 何 进行 TCP 通信 呢 ? 使 用 TCP 进行 通信 首先 要 从 
服务 器 开始 ， 先 初始 化 Socket， 然 后 绑 定 (bind) 端口 ， 对 端口 进行 监听 〈listen) ， 调 用 
accept 阻塞 ， 等 待 客户 端 连接 。 这 时 如 果 某 个 客户 端 初始 化 一 个 Socket， 然 后 连接 服务 器 
(connect) ， 如 果 连 接 成 功 ， 那 么 客户 端 与 服务 器 端的 连接 就 建立 了 。 客 户 端 发 送 数据 请 
求 ， 服 务 器 端 接收 请 求 并 处 理 请 求 ， 然 后 把 回应 数据 发 送 给 客户 端 ， 客 户 端 读 取 数 据 ， 最 后 
关闭 连接 ， 一 次 交互 结束 。 

上 述 流程 如 图 13.4 所 示 。 
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a | 


recv 


a 


close 
































图 13.4 TCP 通信 模式 


13.2.2 TCP 服务 器 的 实现 

在 使 用 Python 进行 网 络 编程 时 ， 大 部 分 的 网 络 通信 都 是 基于 TCP 的 ， 当 然 也 有 可 能 基 
于 13.3 节 要 讲 的 UDP。 

根据 之 前 所 学 的 ， 我 们 将 使 用 socket 模块 相关 知识 来 实现 一 个 简易 的 TCP 服务 器 。 首 先 
创建 一 个 TepServerpy 文件 ， 输 入 例子 13.1 所 示 的 代码 。 
例子 13.1 TCP 服务 器 


01 import socket 

















02 from time import ctime 
03 

04 HOST = 'localhost' 

05 PORT = 5008 

06 BUF SIZE = 1024 

07 ADDRESS = (HOST, PORT) 





08 

DSS name == Main os 

10 # 新 建 socket 连接 

二 主 Server socket = socket.socket (socket.AF INET, socket.SOCK STREAM) 
12 # 将 套 接 字 与 指定 的 ip 和 端口 相连 

13 server socket.bind (ADDRESS) 
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14 

15 

16 

0 
value) 

18 
项 。 

本 有 
可 以 被 重用 。 
20 
2 
之 型 
23 
24 
25 
26 
史记 
28 
23 
30 
三 
3 
33 
34 
Et 
36 
3 
38 
39 
40 
41 
42 


# 启动 监听 ， 并 将 最 大 连接 数 设 为 5 

server socket.listen(5) 

print ("[***] 正在 监听 : %$s:%d" % (HOST， PORT)) 

# setsocketopt () 函数 用 来 设置 选项 ， 结 构 是 setsocketopt (level, optname, 


# level 定义 了 哪个 选项 将 被 使 用 ， 通 常 是 SoL_ SocKET， 意 思 是 正在 使 用 的 socket 选 
# socket .SO_REUSEADDR 表示 socket 关闭 后 ， 本 地 端 用 于 该 socket 的 端口 号 立刻 就 


# 通常 来 说 ， 只 有 经 过 系统 定义 一 段 时 间 后 才能 被 重用 。 
server socket.setsockopt (socket .SOL SOCKET， socket.SO REUSEADDR, 1) 
while True: 

print(u' 服务 器 等 待 连接 . . .7) 

# 当 有 连接 时 ， 将 接收 到 的 套 接 字 存 到 client_sock 中 ， 远 程 连接 细节 保存 到 address 中 。 
client sock, address = server socket.accept() 
print(u' 连接 客户 端 地 址 : '，address) 
while True: 

# 打印 客户 端 发 送 的 消息 
data = client sock.recv(BUF SIZE) 
if not data or data.decode('utf-8') == 'END': 
break 
print ("来 自 客户 端 信息 : ss" % data.decode('utf-8')) 
print (" 发 送 服务 器 时 间 给 客户 端 : %s" % ctime ()) 
EVs 
# 发 送 时 间 
client sock.send(bytes(ctime(), 'utf-8°')) 
except KeyboardIinterrupt: 
print ("用 户 取 消 ") 
# 关闭 客户 端 socket 
client sock.close() 
# 关闭 socket 


Server_socket .close () 


代码 注释 得 很 明白 ， 这 里 就 不 做 解释 了 。 运 行程 序 ， 会 得 到 如 图 13.5 所 示 的 结果 。 





画 CWINDOWS\system32\emdexe - python 一 口 x 


:\Ypython, TcpServer. py 
et 正在 监听 : localhost:5008 
务 器 雪人 待 连接 .… 





图 13.5 ”TcpServer.py 运行 结果 


运 
TcpServerpy 的 运行 结果 说 明 TCP 服务 器 已 经 启动 ， 等 待 客户 端的 连接 。 接 着 我 们 将 对 
客户 端 进行 实现 。 
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13.2.3 TCP 客户 端的 实现 


为 了 便于 理解 TCP 连接 ， 我 们 使 用 TepServerpy 提供 端口 和 服务 。 在 文件 TepServer.py 
同 目录 下 创建 一 个 TcpClientpy 文件 ， 输 入 如 例子 13.2 所 示 的 代码 。 


例子 13.2 TCP 客户 端 


























01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
2 
a 
14 
15 
16 
入 
18 


import socket 
import sys 


HOST = "localhost'" 
PORT = 5008 


是正 name == "_ main ': 
trys 





sock = socket.socket (socket.AF INET, socket.SOCK STREAM) 


except socket .error as err: 
print ("创建 socket 实例 失败 ") 
print ("原因 : %s" % str(err)) 
sys.exit(); 


print(u"socket 实例 创建 成 功 ! a | 
ew 
Sock .connect ( (HOST, int (PORT))) 


print ("Socket 已 经 连接 上 目标 主机 : 8#%s ， 连 接 的 目标 主机 端口 : 


(HOST, PORT) ) 


19 
20 
21 
pe 
2 


这 上 


sock.shutdown (2) 

except socket.error as err: 
print ("连接 主机 : ss 端口 : ss 失败 ! " % (HOST, PORT)) 
print ("原因 : %s" % str(err)) 

sys.exit(); 





所 示 。 


224 


有 使 用 的 主机 和 端口 与 TepServerpy 相对 应 ， 便 于 测试 连接 情况 ， 运 行 





丽 CWWINDOWS\system32\cmd.exe - python TcpServ.. 一 口 x 
~ 


ython TcpServer. py 
2 本 在 监听 : localhost:5008 


a ("127..0.0. 1 ，53434) 


让 刘 








E:\>python TcpClient. py 
ocket 详 例 下 | 有 
本 经 连接 上 目标 主机 : localhost ， 连 接 的 目标 主机 端口 


E:\> 








图 13.6 TcpClientpy 运行 结果 


名 SW 和 


结果 如 图 13.6 


我 们 可 以 修改 TecpClientpy， 通 过 用 户 输 入 TCP 服务 器 地 址 和 端口 进行 测试 连接 。 新 建 


文件 TcpClientEx.py， 输入 如 例子 13.3 所 示 的 代码 。 
例子 13.3 ”测试 连接 


01 import socket 


02 import sys 





03 

04 if name = " main ': 

05 EM 

06 sock = socket.socket (socket.AF INET， socket.SOCK STRERM) 

07 except socket.error as err: 

08 print ("创建 socket 实例 失败 ") 

09 print ("原因 : %s" % str(err)) 

10 sys.exit (); 

hh 

UP print ("socket 实例 创建 成 功 !") 

1 

14 HosT = input (u" 输 入 目标 主机 : ") 

15 PORN = input ("输入 目标 主机 端口 : ") 

16 

eh = 

18 Sock .connect ( (HOST, int (PORN))) 

19 print ("Socket 已 经 连接 上 目标 主机 : %s ， 连 接 的 目标 主机 端口 : %$s" % (HosT， 
PORN) ) 

20 sock.shutdown (2) 

2 except socket.error as err: 

22 print ("连接 主机 : %s 端口 : ss 失败 ! " % (HOST，PORN) ) 

23 print ("原因 : %s" % str(err)) 

24 sys.exit (); 


运行 结果 如 图 13.7 所 示 ， 此 时 需要 输入 目标 主机 localost 和 端口 5008 才 会 连接 到 主机 。 








画 C\WINDOWS\system32\cmd.exe - python TcpServ.. 
| 和 localhost:5008 
要 全 十 掉 :… ( 127.0.0.1，5a4a4) 


| “© 127..0.0. 1 ，53461) 











Eocket 实 | 


Se Eth, localhost ， 连 接 的 目标 主机 端口 届 | 


E:\Ypython TcpClientEx. py 
Be 全 ! 

主机 : localhost 
PN 主机 端口 : 5008 
Socketi 
: 5008 


E:\> 


经 连接 上 目标 主机 ， localhost ， 连 接 的 目标 主机 端口 





图 13.7 TcpClientEx.py 运行 结果 
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使 用 UDP 的 服务 器 与 客户 端 


UDP (User Datagram Protocol， 用 户 数据 报 协议 ) 是 OSI 参考 模型 中 一 种 无 连接 的 传输 
层 协 议 ， 提 供 面向 事务 的 简单 不 可 靠 信 息 传 送 服务 。 

跟 TCP 协议 一 样 ，UDP 在 网 络 中 用 于 处 理 数据 包 ， 不 过 它 只 负责 将 应 用 层 的 数据 发 送 
出 去 ， 不 具备 差错 控制 和 流量 控制 功能 。 因 此 在 传送 过 程 中 如 果 数 据 出 错 就 要 由 高 层 协议 处 
理 。UDP 不 需要 具备 差错 控制 和 流量 控制 等 功能 的 开销 ， 使 得 数据 传输 效率 高 、 延 时 小 ， 适 
合用 于 对 可 靠 性 要 求 不 高 的 应 用 ， 比 如 视频 点 播 、QQ 等 。 

















13.3.1 UDP 工作 原理 

UDP 使 用 底层 互联 网 协议 传送 报 文 ， 提 供 不 可 靠 的 无 连接 的 数据 包 传输 服务 。UDP 在 
IP 报 文 的 协议 号 为 17， 其 报 文 是 封装 在 IP 数据 报 中 进行 传输 的 。UDP 报 文 由 UDP 源 端 口 
字段 、UDP 目标 端口 字段 、UDP 报 文 长 度 字段 、UDP 效 验 和 字段 以 及 数据 区 组 成 。 首 先 通 
过 端口 机 制 进 行 复 用 和 分 解 ， 每 个 UDP 应 用 程序 在 发 送 数据 报 文 之 前 必须 与 操作 系统 协商 
获取 相应 的 协议 端口 及 端口 号 ， 然 后 根据 目的 端口 号 进行 分 解 ， 接 收 端 使 用 UDP 的 效 验 进 
行 确认 查看 UDP 报 文 是 否 正确 到 达 了 目标 主机 的 相应 端口 。 


13.3.2 UDP 服务 器 的 实现 
由 于 UDP 无 须 进 行 流量 控制 和 差错 控制 ， 因 此 UDP 服务 器 相 比 TCP 服务 器 会 简单 很 
多 。 
接 下 来 我 们 使 用 之 前 讲 的 socket 模块 来 实现 一 个 简单 的 UDP 服务 器 。 新 建 UdpServer.py 
文件 ， 输 入 例子 13.4 所 示 的 代码 。 


例子 13.4 UDP 服务 器 


01 import socket 


03 MAX SIZE = 5600 

04 +# 新 建 socket 连接 

05 sock = socket.socket (socket.AF INET, socket.SOCK DGRAM) 
06 # 绑 定 主机 和 端口 ， 主 机 为 空 表示 任意 主机 

07 sock.bind(('localhost', 8005)) 


09 while True: 

10 print (u' 服 务 器 等 待 连接 ...') 

1 # 当 有 连接 时 ， 将 接收 到 的 数据 存 到 data 中 ， 远 程 连接 细节 保存 到 address 中 
到 # MAX_SIZE 表示 可 接收 最 长 为 5600 字 节 的 信息 

ee data, address = sock.recvfrom(MAX SIZE) 

14 data = data.decode() 
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15 resp = "UDP 服务 器 在 发 送 数据 " 
16 # 发 送 数据 包 


oy sock.sendto (resp.encode (), address) 

UDP 与 TCP 新 建 socket 连接 不 同 的 是 socketsocket0 第 二 个 参数 : TCP 使 用 
socket.SOCK_STREAM， 而 UDP 则 使 用 socket.SOCK_DGRAM。 上 述 代码 的 运行 结果 如 图 
13.8 所 示 。 在 网 络 传输 发 送 接收 数据 以 bytes 进行 ， 而 不 是 string， 要 不 然 会 报错 : TypeError: 
a bytes-like object is required, not “str* 。 因 此 在 传输 过 程 中 可 以 通过 encode() 或 decodeO 进 行 编 
码 或 解码 。 如 果 是 str 转 bytes 就 进行 编码 ， 比 如 上 面 代码 要 发 送 resp 消息 时 必须 进行 编码 转 
成 bytes， 反 之 若是 bytes 就 通过 decode() 进 行 解码 。 


























丽 C\WINDOWS\system32\cmd.exe - python UdpSer... 


a 





图 13.8 ”UdpServer.py 运行 结果 


13.3.3 UDP 客户 端的 实现 
我 们 可 以 根据 UdpServer.py 创建 一 个 客户 端 UdpClientpy， 发 送 一 些 数据 到 UDP 服务 器 
进行 验证 ， 代 码 如 例子 13.5 所 示 。 


例子 13.5 ”UDP 客户 端 


01 import socket 
02 

03 MAX SIZE = 5600 
04 +# 新 建 socket 连接 


05 sock = socket.socket (socket.AF INET, socket .SOCK_DGRRAM) 





06 

07 MESSAGE = "UDP 服务 器 ， 你 好 ! [握手 中 ...]" 

08 

3 name = "main ": 

10 # 输入 主机 

1 HOST = input (u" 输 入 目标 主机 : ") 

T2 # 输入 端口 

13 PORT = int(input(u" 输 入 目标 主机 端口 : ") ) 
14 # 发 送 数据 包 

Ls sock.sendto (MESSAGE .encode (), (HOST， PORT)) 
16 data, address = sock.recvfrom(MAX SIZE) 


dn print ("来 自 UDP 的 回复 :") 
18 print(repr(data.decode())) 
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运 


输 


行 代码 ， 结 果 如 图 13.9 所 示 。 








画 C\WWINDOWS\system32\cmd.exe - python UdpSer.. 一 口 婉 
了 如 UdpServer. py 入 
恨 务 起 等 竺 连接 . 





: 1ocalhost 


目 主 二 局: 8005 
自 UDP 的 回 
“ UDP 服务 器 在 发 送 数据 


E: ;起 on UdpClient. py 
] Fj 主 : 
入 

E 





图 13.9 ”UdpClient.py 运行 结果 
入 UDP 服务 器 地 址 和 端口 ， 然 后 发 送 数 据 ， 端 口 UDP 服务 器 接 到 数据 便 解 析 ， 接 着 


进行 回复 。 图 中 “UDP 服务 器 在 发 送 数据 ”就 是 UDP 服务 器 回复 的 数据 。 


开始 编程 : 网 络 聊天 程序 


【本 节 代 码 参考 : Cl3\chat.py】 

我 们 使 用 前 面 几 节 介绍 的 内 容 ， 创 建 一 个 简单 的 聊天 小 应 用 。 这 个 程序 同时 包含 了 客户 
端 和 服务 端 ， 可 以 通过 参数 来 确定 程序 启动 的 是 客户 端 还 是 服务 端 。 

新 建文 件 chat.py， 输 入 例子 13.6 所 示 的 代码 。 
例子 13.6 ”客户 端 和 服务 端 

01 import socket 

02 import argparse 

03 

Oa HOST = F127.0°:001" 

05 PORT = 8080 

06 

07 def listen socket (host, port): 

08 """ 监听 socket TCP 连接 """ 

09 Sock = socket.socket (socket.AF INET, socket.SOCK STREAM) 

10 sock.setsockopt (socket .SOL SOCKET, socket.SsO REUSEADDR, 1) 

a # 绑 定 端口 ，host 为 ''， 表 示 监 听 所 有 端口 

2 sock.bind( (host, port)) 

13 # 监听 最 大 连接 数 

14 sock.listen(100) 

15 return sock 
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6 
lh 
18 
JS 
20 
21 
22 
23 
24 
25 
26 
2 
28 
29 
30 
Eh 
EP 
二 ， 
34 
35 
36 
3 
38 
人 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 


def receive _ msg(sock) : 
"" ”解析 数 到 数据 """ 
data = bytearray() 
msg = "" 
# 以 及 字 节 存储 
while not msg: 
recv = sock.recv(4096) 
if not recv: 
# 关闭 socket 
raise ConnectionError() 
data = data + FecV 
TE DNO Ln Tecws 
# 判断 收 到 数据 ，' \0' 一 直 是 最 后 的 那个 特征 值 。 
msg = data.rstrip(b'\0') 
msg = msg.decode('utf-8') 


return msg 


def prep msg (msg): 
mnm 发 送 消息 "mm 
msg += '\0' 


return msg.encode ('utf-8') 


def send msg(sock, msg): 
"nw 准备 发 送 消息 """ 
data = prep_msg (msg) 
sock.sendall (data) 


def handle client(sock, addr): 

""w 接收 客户 端 数据 并 回复 """ 

EEYys 
msg = receive msg(sock) # 完成 数据 的 接收 
print('{}: {}'.format (addr, msg)) 
send _ msg (sock，msg) +# 发 送 数据 

except (ConnectionError, BrokenPipeError): 
print ('Socket 错误 ') 

finally: 
print (' 与 {} 连 接 关 闭 ' .format (addr)) 


sock.close() 


def server(): 
listen sock = listen socket (HOST, PORT) 


addr = listen sock.getsockname() 
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59 print ('" 正 在 监听 : {}'.format (addr)) 








60 while True: 

61 client sock, addr = listen sock.accept() 

62 print (' 连 接 来 自 : {}' .format (addr)) 

63 handle client (client sock, addr) 

64 

65 def client() : 

66 Sock = socket.socket (socket.AF INET， socket.SOCK STRERM) 

67 sock.connect ( (HOST， PORT) ) 

68 while True: 

69 2 

70 Print ('\n 已 经 连接 {}: {}' .format (HOST, PORT)) 

71 print ("输入 信息 ， 按 'enter' 发 送 , 'q' 键 取消 ") 

72 msg = input() 

人; if msg "q': break 

74 send msg(sock, msg) 

YS print (' 发 送 消 息 : {}' .format (msg)) 

76 msg = receive msg(sock) 

77 print (' 收 到 回复 : ' + msg) 

78 except ConnectionError: 

79 print ('Socket 错误 ') 

80 break 

81 

82 finally: 

83 sock.close() 

84 print (' 关 闭 连接 \n') 

85 

86 if name == "'_ main __': 

87 choices = {'client': client, 'server': server} 

88 parser = argparse.ArgumentParser (description=' 聊 天 小 应 用 ') 

89 parser.add argument ('role', choices=choices, help=" 选择 角色 : client ， 
或 者 server。') 

90 args = parser.parse args() 

91 execute = choices [args .rolel] 

92 execute () 














这 个 小 应 用 与 之 前 所 讲 的 内 容 不 同 的 是 这 里 将 客户 端 和 服务 端 写 在 了 同一 个 文件 ， 通 过 
控制 台 输 入 命令 行 参 数 执行 。 
执行 python chat.py 会 报 如 下 错误 : 





usage: chat.py [-h] {client,server} 


chat.py: error: the following arguments are required: role 


原因 是 需要 添加 角色 ， 即 client 或 server。 执 行 python chat py server， 结 果 如 图 13.10 所 示 。 
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丽 CN\WINDOWS\system32Vcmd.exe - Python chatipy.. 一 口 英 


让 chat. py server 
是 听 : ( 127.0.0.1 ，8080) 





图 13.10 ”chat.py server 运行 结果 


执行 python chat.py client， 结 果 如 图 13.11 所 示 。 







: On chat. py server 
让 (127.0.0. Ls 8080) 
i en 0.0.1 53464) 


7 OO: 习 ， 习 吗 ? 
与 (127: 0:0.1， 二 二 re 





画 C\WINDOWS\system32\cmd.exe - python chat.py ~ 一 
:Vpython chat.py client 


颖 鹤 127., 0. 0. 1:8080 
enter 


a es gg 


BB: 127. 0. 0. 1:80980 
入 “enter， 发 送 ，' q 键 取消 





图 13.11 chat.py client 运行 结果 
输入 信息 ， 然 后 按 Enter 键 ， 将 会 发 送 输入 的 信息 到 服务 端 ， 执 行 client0 函 数 ， 服 务 器 
接 到 客户 端 发 来 的 信息 ， 然 后 进行 响应 回复 ， 执 行 server0 函 数 。 
代码 中 引用 了 Python 标准 库 模 块 argparse。 该 模块 主要 用 于 解析 命令 行 参 数 ， 编 写 用 户 
友好 的 命令 行 界面 ， 生 成 帮助 信息 ， 并 且 在 所 给 参数 无 效 时 进行 报错 。 使 用 argparse 的 第 一 
步 是 创建 一 个 ArgumentParser 对 象 ， 然 后 通过 add_argumentO 添 加 参数 。 


1 3 引 .5 本 章 小 结 


Python 的 模块 功能 非常 丰富 ， 基 本 上 不 怎么 需要 使 用 网 络 编程 来 自己 造 轮子 了 ， 但 网 络 
编程 也 很 重要 ， 只 有 在 底层 了 解 了 网 络 编程 的 运行 原理 ， 才 能 对 轮子 使 用 得 更 加 得 心 应 手 。 
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第 14 章 
< Urllib 反 虫 > 


urllib 是 Python 用 来 处 理 URL (Uniform Resource Locator， 统 一 资源 定位 符 ) 的 工具 
包 ， 源 码 位 于 /Lib/ 下 ， 其 中 包含 几 个 模块 : 用 于 打开 及 读 写 urls 的 request 模块 ， 由 request 
模块 引起 异常 的 error 模块 、 用 于 解析 urls 的 parse 模块 ， 用 于 响应 处 理 的 response 模块 ， 以 
及 分 析 robots.txt 文件 的 robotparser 模块 。 本 章 利用 该 工具 包 进 行 仆 虫 讲解 ， 毕 竞 息 虫 在 Web 
互联 网 数据 采集 中 尤为 重要 。 
本 章 的 主要 内 容 是 : 
@ Python 2.X 与 Python 3.X 的 urllib* 的 不 同 : 掌握 不 同 之 处 ， 便 于 以 后 出 现 相 关 问 题 
知道 是 由 版 本 不 同 所 导致 的 。 
@ request、error、parse、robotparser 模块 的 介绍 : 熟练 应 用 这 些 模块 ， 以 便 更 好 地 进 
行 朴 虫 实战 。 
@ urllib 爬虫 : 实战 体验 urllib 爬虫 ， 掌 握 基本 的 爬虫 方案 。 





urllib、urllib2、urllib3 的 不 同 


简单 地 说 ，Python 2X 包含 urllib、urllib2 模块 ，Python 3.X 把 urllib、urllib2 以 及 
urlparse 合成 到 urllib 包 中 ， 而 urllib3 是 新 增 的 第 三 方 工具 包 。 

可 以 看 出 ，Python 3.X 不 像 Python 2.X 模块 那样 散乱 ， 而 是 将 相关 的 一 些 模块 打 成 包 ， 
便于 模块 调用 及 持续 维护 。 





如 果 在 控制 台中 报 “No module named urllib2”， 就 说 明 是 Python 3.X 环境 ， 而 代码 是 在 : 

Python 2.X 下 编写 成 的 。 : 

遇 到 “No module named urllib2”“No module named parse.urlparse ”等 问题 ， 几 平 都 是 

Python 版 本 不 同 导致 的 。 表 14-1 为 Python 2X 下 的 urllib、urllib2、urlparse 模块 及 Python 
3XX 下 urllib 包 中 不 同 函数 或 类 的 调 取 方式 。 


urllib3 是 一 个 功能 强大 、 条 理 清晰 、 用 于 HTTP 客户 端的 Python 库 。 它 提供 了 许多 
Python 标准 库 里 所 没有 的 重要 特性 : 线程 安全 、 连 接 池 、 客 户 端 SSL/TLS 验证 、 文 件 分 部 编 
码 上 传 、 协 助 处 理 重 复 请 求 和 HTTP Y、 支 持 压 缩编 码 、 支 持 HTTP 和 SOCKS 代理 、 
100% 测 试 覆盖 率 等 。 
urllib3 安装 很 简单 ， 可 直接 通过 pip 进行 安装 : 



































C:\Users> pip install urllib3 
如 果 想 使 用 最 新 代码 ， 可 从 其 GitHub 下 载 ， 或 通过 git 客户 端 安装 : 


C:\Users> git clone git://github.com/shazow/urllib3.git 
C:\Users> python setup.py install 


表 14-1 urllib、urllib2、urlparse 模块 及 urllib 包 中 不 同 函 数 或 类 的 调 取 方 式 
urllibrequesturlretrieveO 
urllib.request.urlcleanup urllib.urlcleanup 
urllib.parse.quote_plusO 


lus! 
urllib.parse.unquote urllib.unquote 
urllib.parse.unquote_plus' urllib.unquote_plus' 





urllib.request.BaseHandler urllib2.BaseHandler 


urllib.request.URLopener urllib.URLopener 


urllib.request.install opener| urllib2.install openerO 


urllib.request.urlopen' urllib2.urlopeng) 





urllib.request.HTTPDefaultErrorHandler urllib2.HTTPDefaultErrorHandler 
urllib.request.HTTPRedirectHandler urllib2.HTTPRedirectHandler 
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Python 3.X 类 /函数 Python 2 类 /函数 


urllib.request.ProxyDigestAuthHandler 





request.HTTPHandler 





关于 urllib3 函数 或 类 的 调用 不 做 太 多 讲解 ， 这 里 举 一 个 简单 的 例子 : 


>>> from urllib import request 
>>> request.urlopen ("http://www.baidu.com") 
<http.client.HTTPResponse object at 0x0000022EFA892470> 


如 果 读 者 想 了 解 更 多 关于 urllib3 包 的 内 容 ， 可 访问 文档 https://urllib3.readthedocs.io/en/latest/ 。 


urllib3 中 的 request 模块 


urllib.request 模块 定义 了 在 身份 认证 、 重 定向 、cookies 等 应 用 中 打开 url (主要 是 
HTTP) 的 函数 和 类 。 

在 这 里 得 提 一 下 request 包 。 该 包 用 于 高 级 的 非 底层 的 HTTP 客户 端 接口 ， 容 错 能 力 比 
request 模块 强大 。request 使 用 的 是 urllib3， 从 其 源码 _init .py 文件 import urllib3 就 可 以 看 
出 它 继 承 了 urllib2 的 特性 ， 支 持 HITP 连接 保持 和 连接 池 ， 支 持 使 用 cookie 保持 会 话 、 支 持 
文件 上 传 、 支 持 自 动 解压 缩 、 支 持 Unicode 响应 、 支 持 国 际 化 的 URL 和 POST 数据 自动 编 
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码 、 支 持 HITP(S) 代 理 等 。 显 然 ， 这 些 功能 在 Web 开发 中 很 常见 。 如 果 读 者 想 了 解 更 多 有 关 
request 包 的 内 容 ， 可 访问 其 文档 地 址 https://requests.readthedocs.1i0/ 。 
接 下 来 对 urllib.request 模块 定义 的 一 些 函 数 或 类 进行 讲解 。 


14.2.1 对 URL 的 访问 

对 URL 的 访问 通过 urlopen()、build_opener()、build_opener0) 方 法 完成 ， 下 面 依次 介绍 。 

1. urlopen() 

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, 
capath=None, cadefault=False,context=None) 

该 函数 是 urllib 模块 中 最 为 重要 的 函数 之 一 ， 用 于 抓 取 URL 数据 。 从 函数 定义 可 以 看 出 
它 带 有 不 少 参数 ， 一 些 参数 是 在 版 本 更 改 中 添加 的 。 除 URL 外 ， 其 他 几 个 参数 都 带 有 默认 
值 ， 因 此 调用 该 函数 时 必须 带 有 URL 参数 〈 传 进来 的 网 址 可 以 是 一 个 字符 串 ， 也 可 以 是 一 个 
Request 对 象 ) 。 例 子 14.1 就 是 一 个 演示 示例 。 
例子 14.1 urllib.request.urlopen() 





>>> from urllib import request 
>>> with request.urlopen ("http://www.baidu.com") as f: 


本 二 print(f.status) 
| print (f.getheaders ()) 
200 


[('Bdpagetype', '1'), ('Bdqid', ‘'O0xdfl5dlea0006a42a'), ('Cache-Control', 
"private')y ("Content=Type, ‘text/html')y (Cry al 
'baidu+f04cb43ce91ad48c927813flcf3c462c'), ('Date', 'Tue, 31 Jul 2018 13:22:44 
GMT")r ("Expiresy Tuey 3 Jal 2018 13:22:40 GMT")r AP3P2 ICP=” OTIT DSP COR 
IVR OUR IND COM "'), ('Server', 'BWS/1.1'), ('Set-Cookie', 
'BAIDUID=A7B20A9430148]1FEE64D5EB6B9D1AC72:FG=1; expires=Thu, 31-Dec-37 
23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 
'BIDUPSID=A7B20A94301481FEE64D5EB6B9D1AC72; expires=Thu, 31-Dec-37 23:55:55 
GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 
'PSTM=1533043364; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; 
path=/; domain=.baidu.com'), ('Set-Cookie', 'delPer=0; expires=Thu, 23-Jul-— 
2048 13:22:40 GMT'), ('Set-Cookie', 'BDSVRTM=0; path=/'), ('Set-Cookie', 

'BD_ HOME=0; path=/'), ('Set-Cookie', 

'H_PS PSSID=26523 1461 26433 21079 26350 26922 20928; path=/; 
domain=.baidu.com'), ('Vary', 'Accept-Encoding'), ('X-Ua-Compatible', 
'IE=Edge, chrome=1'), ('Connection', ‘close'), ('Transfer-Encoding', 


'chunked')])] 


>>> 
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输出 的 是 响应 的 状态 码 及 响应 的 头 信息 。 至 于 返回 对 象 为 什么 有 status 属性 和 
getheaders() 方 法 ， 后 续 会 有 介绍 。 

如 果 向 服务 器 发 送 数据 ， 那 么 data 参数 必须 是 一 个 有 数据 的 bytes 对 象 ， 否 则 为 None。 在 
Python 3.2 之 后 可 以 是 一 个 iterable 对 象 。 若 是 ， 则 headers 中 必须 带 有 Content-Length 参数 。 
HITP 请 求 使 用 POST 方法 时 ，data 必须 有 数据 ; 使 用 GET 方法 时 ，data 写 None 即 可 。 


>>> from urllib import parse 

















>>> from urllib import request 
>>> data = bytes (Parse.Urlencode ({"pro": "value"}), encoding="utf8") 
>>> response = request.urlopen("http://httpbin.org/post", data=data) 


>>> print (response.read()) 


biN\n "argsme thr Mn "datane nn Mn “ELlesve (th Nm Eorm se LV WO: 
"value"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "9", \n “Content-Type": 
"application/x-www-form-urlencoded", \n "Host™: “httpbin-org™ \n "User-— 


Agent": "Python-urllib/3.6"\n }, \n "json": null, \n "origin": 
-20 2 Nn Miri mts /tobin cra/poat Nny Nn 
>>> 


对 数据 进行 post 请 求 ， 需 要 转 码 bytes 类 型 或 iterable 类 型 。 这 里 通过 bytes0 进 行 字 节 转 
换 ， 考 虑 到 第 一 个 参数 为 字符 串 ， 所 以 需要 利用 parse 模块 下 的 urlencode0 方 法 对 上 传 的 数据 
进行 字符 串 转 换 ， 同 时 指定 了 编码 格式 utf8。 (parse 模块 及 其 函数 将 在 后 面 进 行 讲 解 。) 提 
交 的 网 址 httpbin.org 可 以 提供 HTTP 请 求 测试 。 从 返回 的 内 容 可 以 看 出 提交 以 表单 form 作为 
属性 、 以 字典 作为 属性 值 。 

timeout 参数 是 可 选 的 ， 它 以 秒 为 单位 指定 一 个 超时 时 间 。 若 超过 该 时 间 ， 则 任何 操作 都 
会 被 阻止 。 如 果 没 有 指定 ， 那 么 默认 会 取 socket.GLOBAL DEFAULT_TIMEOUT 对 应 的 值 。 
其 实 这 个 参数 仅仅 对 http、https 和 fp 连接 有 效 。 


>>> from urllib import request 





>>> response = request.urlopen("http://httpbin.org/get", timeout=1) 

>>> print (response.read()) 

b'{\n "args": {}, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Host": "httpbin.org", \n "User-Agent": "python-— 
urilib/3:6"\n Na "origin": "58:20.12.197", \n "url™:, http://httpbin.org/get"\n}\n’ 

>>> 


根据 代码 我 们 设置 了 超时 时 间 是 1 秒 ， 程序 1 秒 过 后 服务 器 没有 响应 就 会 抛 出 


urllib.error.URLError :<urlopen error timed out> 异 常 。 


在 实际 开发 中 ， 常 常会 使 用 try..…except.… 来 处 理 异 常 ， 以 便 根据 代码 异常 情况 进行 相应 : 
的 处 理 。 : 
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cafile、capath 、cadefault 已 被 弃 用 ， 使 用 自 定义 context 代替 。 从 context 参数 定义 来 
看 : 

context= ssl.create default context (ssl.Purpose.SERVER AUTH,cafile=cafile, 
capath=capath) 

其 必须 是 ssl.SSLContext 类 型 ， 用 来 指定 SSL 设置 。cafile 和 capath 两 个 参数 用 来 指定 
CA 证 书 和 它 的 路 径 ， 在 请 求 HTTPS 链接 时 会 有 用 。 

该 函数 返回 用 作为 context manager (上 下 文 管理 器 的 类 文件 对 象 并 且 包 含 如 下 方法 : 

@ geturl(): 返回 一 个 资源 索引 的 URL， 通 常 重 定向 后 的 URL 照样 能 get 到 。 

@ info0: 返回 页 面 的 元 信息 ， 如 头 信息 。 

@@ getcode0: 返回 响应 后 的 HITP 的 状态 码 。 

除了 上 述 3 个 方法 外 ， 还 包括 getheaders() 方 法 及 status 和 msg 属性 。 示 例如 下 : 


>>> from urllib import request 



































>>> response = request.urlopen("http://httpbin.org/get") 

>>> response.geturl() 

'http://httpbin.org/get' 

>>> response.info() 

<http.client.HTTPMessage object at 0x02D01F70> 

>>> response.getcode() 

200 

>>> response.msg 

1OK! 

>>> response.status 

200 

>>> response.getheaders() 

[('Connection', 'close'), ('Server', 'meinheld/0.6.1'), ('Date', 'Thu, 05 
Apr 2018 08:42:35 GMT'), ('Content-Type', '‘'application/json'), ('Access- 
Control-Allow-Origin', '*'), ('ACccess-Control-Allow-Credentials', 'true'), 
('X-Powered-By', 'Flask'), ('X-Processed-Time', '0'), ('Content-Length', 
2 Wy el vagur)y 

>>> 


从 代码 中 可 以 看 出 ，getul0 返 回 的 是 请 求 的 url; info0 返 回 一 个 httplib.HTTPMessage 对 
象 ， 表 示 远 程 服 务 器 返回 的 头 信息 ; getcode0 返 回 HTTP 状态 码 200， 说 明 访 问 正常 与 status 
属性 值 是 一 样 的 ， 所 以 msg 的 属性 必然 为 “OK”。 

对 于 HTTP 请 求 ， 不 同 的 状态 码 对 应 不 同 的 状态 ， 常 见 的 有 404、500 等 。 如 以 下 
getcode0 返 回 的 状态 码 对 应 的 问题 : 

@ 1xx (informational) : 请 求 已 经 收 到 ， 正 在 进行 中 。 

@@ 2xx (successful ) : 请 求 成 功 接收 ， 解 析 ， 完 成 。 
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@ 3xx (Redirection ) : 需要 重 定 向 。 
@@ 4xx (Client Error) : 客户 端 问题 ， 请 求 存在 语法 错误 ， 网 址 未 找到 。 
@ 5xx (Server Error) : 服务 器 问题 。 





2. build_opener() 


urllib.request.build _ opener ([handlerl [ handler2, ... ]]) 


urlopen() 函 数 不 支 持 验 证 、cookie 或 者 其 他 HTTP 高 级 功能 。 要 支持 这 些 功能 ， 必 须 使 
build_opener() 函 数 创建 自 定义 OpenerDirector 对 象 ， 可 称 之 为 Opener。 人 参数 handler 是 
Handler 实例 ， 常 用 的 有 用 于 管理 认证 的 HITPBasicAuthHandler、 用 于 处 理 Cookie 的 
HTTPCookieProcessor、 用 于 设置 代理 的 ProxyHandler 等 。 

build_openerO 函 数 返回 的 是 OpenerDirector 实例 ， 而 且 是 按 给 定 的 顺序 链接 处 理 程序 
的 。 作 为 OpenerDirector 实例 ， 可 从 OpenerDirector 类 的 定义 看 出 它 具 有 addheaders 、 
handlers、handle _ open、add_handler0、open0、close0 等 属性 或 方法 。open() 方 法 与 urlopen() 
函数 的 功能 相同 。 

例子 14.2 为 相关 演示 示例 。 
例子 14.2 urllib.request. build_opener () 























>>> from urllib import request 

>>> opener = request.build opener() 

>>> opener.addheaders = [('User-agent','Mozilla/5.0 (iPhone; CPU iPhone OS 
11 0like Mac MAC OS xX) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 
Mobile/15A372 safari/604.1')] 

>>> opener.open('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x0000022EFA8924E0> 

>>> request.urlopen('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x0000022EFA89CDD8> 

>>> 


通过 如 上 代码 修改 http 报头 进行 HTTP 高 级 功能 操作 ， 然 后 利用 返回 对 象 openO 进 行 请 
求 ， 返 回 结果 与 urlopen0 一 样 ， 只 是 内 存 位 置 的 不 同 而 已 。 

实际 上 urllib requesturlopen() 方 法 就 是 一 个 Opener， 如 果 安 装 启动 器 没有 使 用 urlopen 启 
动 ， 调 用 的 就 是 OpenerDirector.open0 方 法 。 如 何 设置 默认 全 局 启动 器 呢 ? 这 将 涉及 下 面 的 一 
个 新 函数 。 


3. install_opener() 

















urllib.request. install opener (opener) 


安装 OpenerDirector 实例 作为 默认 全 局 启动 器 。 
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>>> from urllib import request 

>>> auth handler = request.HTTPBasicAuthHandler () 

>>> auth handler.add password('admin', ‘'http://www.baidu.com', "admin'yv 
We 

>>> opener = request.build openerl(auth handler) 

>>> request.install opener (opener) 

>>> request.urlopen('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x02C2C8B0> 


首先 导入 request 模块 ， 实 例 化 一 个 HITPBasicAuthHandler 对 象 ， 然 后 通过 利用 
add_password() 添 加 用 户 名 和 密码 来 建立 一 个 认证 处 理 器 ， 利 用 urllib requestbuild_opener() 方 
法 来 调用 该 处 理 器 构建 Opener， 并 使 其 作为 默认 全 局 启动 器 ， 这 样 Opener 在 发 送 请 求 时 具 
备 了 认证 功能 。 通 过 Opener 的 open() 方 法 打开 链接 完成 认证 。 当 然 这 个 实例 是 无 法 跑 通 的 ， 
所 访问 的 url 是 无 法 直接 输入 用 户 名 和 密码 的 。 

除了 上 述 方 法 外 ， 还 有 将 路 径 转换 为 URL 的 pathname2url(path)、 将 URL 转换 为 路 径 的 
url2pathname(path) 以 及 返回 方案 至 代理 服务 器 URL 映射 字典 的 getproxies0 等 。 


14.2.2 Request 类 

对 于 一 般 基本 URL 请 求 ， 我 们 使 用 urlopen0 就 可 以 ， 如 果 需 要 添加 headers 信息 ， 就 要 
考虑 更 为 强大 的 Request 类 了 。Request 类 是 URL 请 求 的 抽象 ， 包 含 了 许多 参数 ， 并 定义 一 
系列 属性 和 方法 。 

1. 定义 


class urllib.request.Request (url, data=None, headers={}, origin req host=N 





one, unverifiable=False,method=None) 


参数 url 为 有 效 网 址 的 字符 串 ， 等 同 于 urlopen() 方 法 的 url 参数 。data 也 一 样 。headers 很 
明显 是 一 个 字典 ， 可 以 通过 add_header0 以 键 值 进行 调用 。 这 通常 用 于 息 虫 息 取 数据 时 或 者 
Web 请 求 时 更 改 User-Agent 标 头 值 参 数 来 进行 请 求 。origin_req_host 为 原始 请 求 主机 ， 比 如 
请 求 的 是 针对 HTML 文档 中 的 图 像 的 ， 则 该 请 求 主机 是 包含 图 像 的 页 面 所 在 的 主机 。 
Unverifiable 指示 请 求 是 否 是 无 法 验证 的 。method 指示 使 用 的 是 HITP 请 求 方法 。 常 用 的 有 
“GET™” *POST” “PUT” “HEAD” “DELBETE” 等 。 



































>>> from urllib import request 
>>> from urllib import parse 
>>> data = parse.urlencode ({"name":"baidu"}) .encode ('utf-8') 


>>> headers = {'User-Agent':'"'Mozilla/5.0 (Windows NT 10.0; WOW64) 
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AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} 
>>> req = request.Request (url="http://httpbin.org/post", data=data, 
headers=headers, method="POST") 


>>> response 


= request.urlopen (req) 
>>> response.read() 


BUEN argsus dr Mn vaatans mn Nn Edtlepme Ti Mo mEorm eo TN 


"name": "baidu"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "ll";, \n "Content-—-Type": 
"application/x-www-form-urlencoded", \n "Host": "httpbin.org", \n "User-— 


Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 
Gecko) chrome/50.0.2661.102, Safari/531:36"\n Yr \n vijson™: nulls \n “origin™: 
-T0533 109 T1807 NT “httpe//httpblin org/post*N\nj\n, 

>>> 


data 参数 必须 是 字 节 流 类 型 的 ， 这 些 在 前 面 都 已 涉及 ， 不 同 的 是 调用 Request 类 进行 请 求 。 
2. 属性 方法 


(1) Request.full url 
从 代码 定义 可 以 看 出 Request.full url 是 函数 属性 化 处 理 ， 通 过 添加 修饰 器 @property 将 
原始 URL 传递 给 构造 函数 。 


class Request: 


@property 
def full url (self): 
if self.fragment: 
return '{}#{}'.format (self. full url, self.fragment) 
return self. full url 


@full url.setter 

def TulT urcL(selEr VEL 
# unwrap ('<URL:type://host/path>') --> 'type://host/path' 
self. full url = unwrap (url) 
self. full url, self.fragment = splittag(self. full url) 
self. parse() 


@full url.deleter 

def EDLY Url(selE)s 
self. full url = None 
self.fragment = None 


selfeSelector = 
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full_url 属性 包含 setter、getter 和 deleter。 如 果 原 始 请 求 URL 片段 存在 ， 那 么 得 到 的 
full_url 将 返回 原始 请 求 URL 片段 。 例 子 14.3 演示 Request.full_url 的 使 用 。 


例子 14.3 ”Request.full_url 的 使 用 








>>> from urllib import request 
>>> from urllib import Parse 
>>> req = request.Request('http://www.baidu.com') 
>>> def request host (request): 

url = request.full url 

host = parse.urlparse (url) [1] 

if host == "";: 

host = request.get header ("HOST","") 


return host.lower() 


>>> request host (req) 


"www.baidu.com' 


在 定义 request_host0 函 数 中 可 以 看 出 ， 先 获取 请 求 对 象 的 URL， 然 后 简 析 该 URL 取得 
主机 地 址 。 

(2) Request.type 

获取 请 求 对 象 的 协议 类 型 。 

>>> TEG* type 

WE 

(3) Request.host 

获取 URL 主机 ， 可 能 包含 有 端口 的 主机 。 


>>> req.host 


"www.baidu.com' 


(4) Request.orgin req host 
发 出 请 求 的 原生 主机 ， 没 有 端口 。 


>>> req.origin req host 


'WwwW .baidu.com' 


其 他 属性 不 做 介绍 ， 比 如 selector、data、method 等 。 














(5) Request.get method() 
返回 显示 HTTP 请 求 方法 的 字符 串 。 如 果 Request.method 不 是 None， 则 返回 它 值 ， 否 则 返 
回 “GET”。 如 果 Request.data 是 None， 就 返回 “POST”。 这 是 唯一 有 意义 的 HTTP 请 求 。 





Ee 














241 





了 Python 3.3+ 版 本 的 变化 : get method 是 Requestmethod 的 新 形式 。 


>>> from urllib import request 


>>> Fred = request.Request('http://www.python.org', method='HEAD') 
>>> req.get method() 
'HEAD' 


(6) Request. add header(key, val) 
向 请 求 中 添加 标 头 ， 通 过 例子 14.4 来 展示 。 


例子 14.4 Request. add_header 的 使 用 





>>> from urllib import request 
>>> from urllib import parse 
>>> data = bytes (parse.urlencode({'name':baidu}), encoding='"'utf-8') 
>>> req = request.Request('http://httpbin.org/post',data, method="'POST') 
>>> req.add header('User-agent', 'Mozilla/5.0 (iPhone; CPU iPhone OS TEDOPE 
...: ike Mac MAC OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) 
Version/11.0 Mo 
...: bile/15A372 Safari/604.1') 
>>> response = request.urlopen (req) 
>>> print (response.read() .decode ('utf-8')) 
{ 
"args": {}, 
区 
loge. ts 
ph i 
"name": "baidu" 
}, 
headers™s 并 
"Accept-Encoding": "identity", 
.oonnection CGOSG 
"Content-Length": "11", 
"Content-Type": "application/x-www-form-urlencoded", 
"ost" “httpbine org”y 
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone Os 11 0 like Mac MAC Os 
X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1" 
}s 
”TSOn nulls 
sm LL 





"origin 


“url *ttp//httpbins orgq/post” 


> 
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从 代码 可 以 看 出 ， 通 过 add_header0 传 入 了 UserAgent。 在 怜 虫 过 程 中 常常 通过 循环 调 入 
add_header() 来 添加 不 同 的 User-Agent 进行 请 求 ， 避 免 服 务 器 针对 某 一 User-Agent 的 禁用 。 
其 他 方法 如 has_header()、remove header()、get full url0、set proxy0 等 不 做 介绍 。 如 果 
读者 需要 了 解 它 们 的 使 用 方法 ， 请 查看 Python 文档 或 源 代 码 。 


14.2.3 ”其 他 类 
BaseHandler 为 所 有 注册 处 理 程序 的 基 类 ， 并 且 只 处 理 注册 的 简单 机 制 。 从 定义 来 看 ， 
BaseHandler 非常 简单 ， 提 供 了 一 个 添加 基 类 的 add_parent0 方 法 。 我 们 接 下 来 介绍 的 这 些 类 
都 是 继承 该 类 操作 的 。 
@ HTTPErrorProcessor: 用 于 HTTP 错误 响应 过 程 。 
@ HTTPDefaultErrorHandler: 用 于 处 理 HTTP 响应 错误 ， 错 误 都 会 抛 出 HITPError 类 
型 的 异常 。 























@ ProxyHandler: 用 于 设置 代理 。 

@ HTTPRedirectHandler: 用 于 处 理 重 定向 。 

@ HTTPCookieProcessor: 用 于 处 理 Cookie。 
@ HTTPBasicAuthHandler: 用 于 管理 认证 。 


除了 这 些 ， 当 然 还 有 许多 类 ， 这 里 不 做 过 多 介绍 ， 读 者 可 以 查看 其 官方 文档 或 源码 。 


3 request 引发 的 异常 


error 模块 定义 了 由 urllib.request 引发 异常 的 异常 类 。 从 其 源码 可 以 看 出 有 3 个 ， 分 别 为 
URLError、 HTTPError、ContentTooShortError。 

URLError 是 OSError 的 子 类 ， 用 于 处 理 程序 在 遇 到 问题 时 引导 此 异常 〈 或 派生 异常 ) 。 
HTTPError 是 URLError 的 子 类 ， 在 处 理 HITP 错误 比如 认证 请 求 ) 上 很 重要 。 根 据 服务 器 
上 HTTP 响应 返回 的 状态 码 ， 可 以 知道 我 们 的 访问 是 否 成 功 。 比 如 200 状态 码 ， 表 示 请 求 成 
功 。ContentTooShortError 与 HITPError 一 样 是 URLError 的 子 类 ， 通 过 request.urlretrieve() 函 
数 检测 下 载 数 据 量 小 于 Content-Length 头 指定 的 数据 量 时 ， 引 发 该 异常 。 


>>> from urllib import request 





>>> from urllib import error 
>>> req = request.Request('http://www.baidu.com/hack.html') 
>3> try: 
response = request.urlopen (req) 
print (response.read()) 
= except erroreHTTPError Aas es 


print(e.code) 
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404 


运行 之 后 得 到 404 错误 ， 说 明 请 求 的 页 面 不 存在 。 试 着 在 浏览 器 打开 ， 会 发 现 404 错误 


Python 2X 与 Python 3.X 的 except... 写法 是 不 同 的 。 上 述 except... 代 码 在 Python 2X 中 i 
的 写法 为 except HTTPError, e。 : 







下 载 音乐 或 视频 不 完全 时 ， 会 导致 ContentTooShortError 错误 ， 下 面 举 例 说 明 : 


>>>" EYE 
request.urlretrieve('http://www.iobigdata.com/pha/', 'ring.mp3') 


: except error.ContentTooShortError: 


print (' 内容 未 完全 下 好 ! ') 


如 果 下 载 没 有 完成 就 会 报错 ， 否 则 不 会 。 


解析 URL 的 parse 模块 


parse 模块 用 于 分 解 URL 字符 串 为 各 个 组 成 部 分 ， 包 括 寻 址 方案 、 网 络 位 置 、 路 径 等 ， 
也 能 用 于 将 这 些 部 分 组 成 URL 字符 串 ， 同 时 可 以 对 “相对 ”URL 进行 转换 。 


14.4.1 URL 解析 

URL 解析 无 非 是 将 URL 拆 开 为 各 部 分 ， 或 将 各 部 分 组 成 完整 的 URL 等 。 在 这 里 我 们 将 讲 
述 常用 的 几 个 函数 ， 如 urlparse0、urlunparse0 、urlsplit0、urlunsplit0、urjoin0、urldefragO 等 。 

1. urllib.parse.urlparse(urlstring,scheme=",allow_fragments=True) 

解析 URL 为 6 部 分 ， 返回 一 个 6 元 组 (tuple 子 类 的 实例 ) 。tuple 类 具有 表 14-2 所 列 的 
属性 。 





14-2 ”返回 元 组 具有 的 属性 及 其 说 明 
































属性 对 应 下 标 指数 不 存在 时 的 取 什 
scheme | URL 方案 说 明 符 scheme 参数 
netloe | 网 络 位 置 部 分 | 空 字符 电 
path | 分 层 路 径 空 字符 品 

最 后 路 径 元 素 的 参数 空 字符 串 








( 续 表 ) 
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属性 说 明 对 应 下 标 指数 不 存在 时 的 取 值 











query 查询 组 件 4 空 字符 串 
fragment 片段 标识 符 5 | 空 字符 申 
username 用 户 名 None 




















password 密码 None 
hostname 主机 名 (小写) | None 
port 端口 号 (如 果 存在 》 | None 





组 成 URL 的 一 般 结构 为 scheme://netloc/path:parameters?query#fragment。 下 面 通过 例子 
14.5 进行 演示 。 
例子 14.5 ” Request. add_header 的 使 用 





>>> from urllib.parse import urlparse 

>>> res = urlparse('https://docs.python.org/3/whatsnew/3.7.html') 

>>> res 

ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew/ 
3.7.html', params='', query='', fragment="'') 


>>> res.scheme 

'https' 

>>> res.netloc 
'docs.python.org' 

>>> res.path 
'/3/whatsnew/3.7.html' 
>>> res.params 


>>> res.query 


>>> res.fragment 


>>> res.username 

>>> res.password 

>>> res.hostname 

'docs.python.org' 

>>> res.port 

>>> res.geturl() 
'https://docs.python.org/3/whatsnew/3.7.html' 
23> tuple (resy 

(https', "docs.python.org', '/3/whatsnew/3.7.html, wv, 7 TI 
>>> res[0] 

Http 

>>>° Tes[lL] 


'docs.python.org' 
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>>> res[2] 
'/3/whatsnew/3.7.html' 
站 二 


从 代码 中 我 们 很 容易 理解 返回 元 组 每 一 个 元 素 对 应 的 值 。urlparse 有 时 并 不 能 很 好 地 识别 





netloc， 它 会 假定 相对 URL 以 路 径 分 量 开始 。 


>>> from urllib.parse import urlparse 

>>> urlparse('//docs.python.org/3/whatsnew/3.7.html') 

ParseResult (scheme='', netloc='docs.python.org', path='/3/whatsnew/3.7. 
html', params='', query='', fragment="') 

>>> urlparse('docs.python.org/3/whatsnew/3.7.html') 

ParseResult (scheme='', netloc='', path='docs.python.org/3/whatsnew/3.7. 


) 





html', params='', query='', fragment= 
>>> urlparse('3/whatsnew/3.7.html') 
ParseResult (scheme='', netloc='', path='3/whatsnew/3.7.html', params="'" 
7 query='', fragment="'') 

>>> 


从 上 述 代 码 可 以 看 出 ，urlparse 解析 是 有 问题 的 ， 无 法 正确 解析 netloc， 而 是 将 其 取 值 放 


在 path 中 。 因 此 在 开发 过 程 中 要 特别 注意 该 情况 。 


2. urllib.parse.urlunparse(parts) 
从 函数 定义 可 以 看 出 urlunparseO 是 urlparseO 逆 向 操作 ， 即 将 urlparse0 返 回 的 元 组 构建 一 


个 URL。 


仆 坟 
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>>> res 
ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew 
/3.7.html', params='', query='', fragment="'"') 


>>> from urllib.parse import urlunparse 
>>> urlunparse (res) 
'https://docs.python.org/3/whatsnew/3.7.html' 


res 为 刚才 定义 的 返回 元 组 对 象 ，urlunparseO 直 接 使 用 该 对 象 构造 了 URL。 

3.urllib.parse.urlsplit(urlstring,scheme=",allow_fragments=True) 

该 函数 类 似 urlparse0， 只 是 不 会 分 离 参数 ， 即 返回 的 元 组 对 象 没 有 params 元 素 ， 是 一 

元 组 ， 相 应 的 下 标 指数 也 发 生 了 改变 。 

>>> from urllib.parse import urlsplit 

>>> sp = urlsplit('https://www.baidu.com/s?wd=pythongie=utf-8&tn=94100467_ 
.2 hao pg') 

>>> sp 


SplitResult (scheme='https', netloc='www.baidu.com', path='/s', query=" 
d=pythongie=utf-8&tn=94100467 hao pg', fragment="') 


除了 少 了 params， 跟 urlparse0 返 回 的 结果 差不多 。 
3.urllib.parse. urlunsplit(parts) 


互 








类 似 于 urlunparse(parts) 。 
4.urllib.parse. urljoin(base, url, allow_fragments=True) 
该 函数 主要 组 合 基 本 网 址 (base) 与 另外 一 个 网 址 (url) 构造 新 的 完整 网 址 。 


>>> from urllib.parse import urljoin 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: ,1 'test/one.html') 

'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: , './test/one.html') 

'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: ， '../test/one.html') 


'http://news.baidu.com/z/resource/pc/test/one.html' 


>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: ， '/test/one.html') 
'http://news.baidu.com/test/one.html' 


从 代码 可 以 看 出 ， 相 对 路 径 和 决 对 路 径 的 url 组 合 是 不 同 的 ， 而 且 相 对 路 径 是 以 最 后 部 
分 路 径 进行 蔡 换 处 理 的 。 








如 果 tl 是 绝对 网 址 (以 /或 scheme:/ 开 头 ) ， 那 么 url 15> 的 主机 名 和 /或 方案 将 出 现在 结 
果 中 。 


5.urllib.parse. urldefrag(url) 


根据 url 进行 分 开 ， 如 果 url 包含 片段 标识 符 ， 就 返回 url 对 应 片段 标识 符 前 的 网 址 ， 
fragment 取 片 段 标识 符 后 的 值 ， 其 下 标 指数 固然 也 就 是 1 了; 如果 url 没有 片段 标识 符 ， 那 么 
fragment 为 空 字符 串 。 





>>> from urllib.parse import urldefrag 


>>> urldefrag('http://www.python.com/download/soft.html#python3.7) 
DefragResult (url='http://www.python.com/download/soft.html', fragment=" 
python3.7') 


该 代码 带 片段 标识 符 ul 地 址 是 虚拟 的 ， 从 结果 可 以 很 明显 地 看 出 urldefrag0 函 数 的 功能 。 
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14.4.2 ”URL 转 义 

URL 转 义 可 以 避免 URL 有 些 字符 引起 歧义 ， 通 过 引用 特殊 字符 并 适当 编码 非 ASCII 文 
本 ， 使 其 作为 URL 组 件 安全 使 用 。 当 然 也 支持 反 转 这 些 操作 以 便 从 URL 组 件 内 容 
原始 数据 。 

1.urllib.parse.quote(string,safe=',encoding=None,errors=None) 

通过 使 用 %xx 转 义 替换 string 中 的 特殊 字符 ， 其 中 字母 、 数 字 和 字符 ' .-' 不 会 进行 转 义 。 
默认 情况 下 ， 此 函数 用 于 转 义 URL 的 路 径 部 分 。 可 选 的 safe 参数 指定 不 应 转 义 的 其 他 ASCII 
字符 一 一 其 默认 值 为 /。 


>>> from urllib.parse import quote 





























>>> quote('http://www.python.com/download/soft .html#python3.7&country=chin 
sr 
'http%3A//www.python.com/download/soft .html%23python3.7%26country%3Dchi 


na' 


>>> quote('http://www.python.com/download/soft .html#python3.7&country=chin 
sar saate="/=.) 
'http%3A//www.python.com/download/soft.html%23python3.7%26country=china 


' 


从 输出 结果 可 以 看 出 “: ”替换 为 “%3A”、“#” 蔡 换 为 “%23”、“&” 蔡 换 为 
“9%26”、“=” 蔡 换 为 “%3”。JIn[46] 设 置 了 safe 为 “三 ”后 ， “=” 就 没有 进行 转 义 了 。 

参数 string 既 可 以 是 字符 串 ， 也 可 以 是 bytes 类 型 。 参 数 encoding 用 来 指定 编码 格式 ， 
默认 为 “utf-8”， 其 默认 编码 满足 了 大 部 分 需求 。errors 在 处 理 非 ASCII 字符 中 指定 ， 默 认 
为 “strict”， 对 于 不 支持 的 字符 会 引发 UnicodeEncodeError 错误 。 




















如 果 string 参数 是 bytes，encoding 和 errors 就 无 法 指定 ， 和 否则 会 报 TypeEmor 错误 。 


>>> from urllib.parse import quote 


>>> 
quote (bytes ('http://www.python.com/download/soft .html#python3.7&country 


..: =china', encoding='utf-8'), safe='/=', encoding='utf-8') 


TypeError Traceback (most recent call last) 
<ipython-input-5-3600el55b0b3> in <module>() 
宇 三 三 二 全 二 和 


quote (bytes ('http://www.python.com/download/soft .html#python3.7&country= 


china', encoding="'utf-8'), safe='/=', encoding="'utf-8') 


c:\python37-32\lib\urllib\parse.py in quote(string safe, encoding, errors) 
782 else: 
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783 if encoding is not None: 


--> 784 raise TypeError("quote() doesn't support "encoding' for 
bytes") 
785 if errors is not None: 
786 raise TypeError ("quote() doesn't support "errors' for 


TypeError: quote() doesn't support "encoding' for bytes 


从 上 述 代 码 可 以 看 出 ， 当 参数 为 bytes 类 型 时 ， 说 明 在 bytes0 中 的 参数 已 经 进行 
encoding 指定 ， 无 须 在 quote0 函 数 中 指定 了 ， 否 则 就 会 报 TypeError 错误 。 


2.urllib.parse.unquote(string, encoding='utf-8', errors='replace') 


该 函数 很 显然 是 quote0 的 逆向 操作 ， 即 将 %xx 转 义 为 等 效 的 单字 符 。 参 数 encoding 和 
errors 用 来 指定 %xx 编码 序列 解码 为 Unicode 字符 ， 如 同 bytes.decode() 方 法 。 


>>> from urllib.parse import unquote 


>>> a = quote (bytes('http://www.python.com/download/soft.html#python3.7&co 
: untry=china', encoding='utf-8'), safe='/=') 


>>> type (a) 
str 


>>> a 
'http%3A//www.python.com/download/soft .html%23python3.7%26country=china 


>>> unquote (a) 
'http://www.python.com/download/soft.html#python3.7&country=china’' 


quote0 函 数 返 回 的 是 字符 串 ， 转 义 的 字符 通过 unquoteO 进 行 了 转 码 。 

3. urllib.parse.quote_plus(string, safe=", encoding=None, errors=None) 

该 函数 是 quoteO 的 增强 版 ， 跟 quoteO 的 功能 差不多 ， 不 同 的 是 用 “+” 蔡 换 空格 〈 在 提 
交 表 单 值 构建 字符 串 进 入 URL 请 求 时 ， 这 是 必须 的 ) ， 而 且 如 果 原 始 URL 有 字符 ， 那 么 
“+” 将 被 转 义 。 


>>> from urllib.parse import quote plus, quote 


>>> a = quote(bytes('http://www.python.com/download/soft.html#python3.7&co 
: untrytchina is my love', encoding='"'utf-8'), safe='/=') 
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>>> a 
'http$3A//www.python.com/download/soft.html%23python3.7%26country%2Bchi 
na%20is%20my%20love"' 


>>> b = quote plus (bytes('http://www.python.com/download/soft.html#python3 
.Tgcountrytchina is my love', encoding='utf-8'), safe='/=') 


>>> b 


'http%$3A//www.python.com/download/soft .html%23python3.7%26country%2Bchi 
na+is+my+love" 


在 quote_ plus0 函 数 下 ， 字 符 “+” 转 义 为 “%2B”， 空 格 以 “+” 蔡 换 。 

4.urllib.parse.unquote_plus(string, encoding='utf-8, errors='replace') 

类 似 unquote0， 这 里 不 做 演示 。 

5.urllib.parse.urlencode(query, doseq=False, safe=", encoding=None, errors=None, qu 
ote_via=quote_plus) 

读者 应 该 会 发 现 该 函数 在 前 面 调用 过 。 通 常 在 使 用 HTTP 进行 POST 请 求 对 传递 的 数据 
进行 编码 时 会 使 用 该 函数 。 

>>> from urllib import parse 


>>> from urllib import request 
>>> data = bytes (parse.urlencode({"pro": "value"}), encoding="utf8") 


>>> response = request.urlopen("http://httpbin.org/post", data=data) 


>>> response.read() 

brt\n Margqs"> thr Mn vdatane "wm Nn wiles™: [yr Vn eform"y [Nn 

"pro": "value"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 

"Connection": "close", \n "Content-Length": "9", \n "Content-Type": 
"application/x-www-form-urlencoded", \n "Host": "httpbin .org \n "User-— 
moencn: Pythono=urllib/36Nn \n “son nulls \n “origtnn: 
~ 3 Um Nn ur "ttpL/ttpbin orgipoat "NayNn" 


data 为 所 提交 的 数据 。 注 意 ， 该 数据 必须 转换 为 bytes 类 型 ， 或 者 使 用 encode('ascii) 进 行 
编码 。 调 用 urlencode0 转 换 为 %xx 编码 的 ASCII 文本 字符 串 。 

除了 上 述 函 数 外 ， 还 有 quote_from bytes0 、unquote to_bytes0 等 ， 如 果 读 者 想 了 解 更 
多 ， 可 查看 官方 文档 或 源码 。 

















分 析 robots.txt 文件 


robotparser 模块 很 简单 ， 整 个 源 代码 也 就 两 百 多 行 ， 仅 定义 了 3 个 类 (分 别 为 
RobotFileParser、RuleLine、Entry) ， 但 从 _all 属性 来 看 也 就 RobotFileParser 一 个 类 (用 于 
处 理 有 关 特 定 用 户 代 理 是 否 可 以 在 发 布 robots.txt 文件 的 网 站 上 提取 网 址 内 容 ) 了 。robots.txt 
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可 以 说 是 一 个 协议 文件 ， 是 搜索 引擎 访问 网 站 时 查看 的 第 一 个 文件 〈 会 告诉 怜 虫 或 蜘蛛 程序 
在 服务 器 上 可 以 查看 什么 文件 ) 。 

RobotFileParser 类 有 一 个 url 参数 ， 有 set url0、read0、Pparse0、can_fetchO0、mtimeO、 
modified0 〇 等 方法 。set_url(ur]) 用 来 设置 指向 robots.txt 文件 的 网 址 。read0 用 来 读 取 robots.txt 
网 址 ， 并 将 其 提供 给 解析 器 。parse0 用 来 解析 robots.txt 文件 。can_fetch(useragenturD) 用 于 判 
断 是 否 可 提取 url， 如 果 人 允许 useragent 根据 解析 的 robots.txt 中 的 规则 提取 url， 就 返回 True， 
否则 就 返回 False。mtime() 返 回 上 次 抓 取 robots.txt 时 间 。modified0 将 上 次 抓 取 robots.txt 文件 
的 时 间 设 置 为 当前 时 间 。 

例子 14.6 用 来 演示 一 下 RobotFileParser 类 的 基本 使 用 。 


例子 14.6 ”RobotFileParser 的 使 用 
































>>> from urllib.robotparser import RobotFileParser as RbP 
>>> rbp = RbP() 

>>> rbp.set url('http://www.baidu.com/robots.txt') 

>>> rb read = rbp.read() 

>>> rbp.can fetch('*', 'http://www.baidu.com') 

False 


>>> rbp.mtime() 
1523200823.1784632 


>>> rbp.modified() 
>>> rbp.mtime() 
1523200880.7127542 


>>> rb_read 
>>> 


从 代码 中 就 可 以 清楚 地 知道 各 个 方法 的 使 用 ， 这 里 不 再 袭 述 。 


本 章 小 结 


Python 的 urllib 模块 整合 了 大 部 分 有 关 网 络 的 功能 。 如 果 没 有 什么 特殊 的 要 求 ， 基 本 上 
这 一 个 模块 就 可 以 在 网 络 编程 方面 打 天 下 了 。 比 urllib 更 方便 的 模块 也 不 是 没有 ， 比 如 第 三 
方 模块 requests 就 更 加 强大 。 如 果 只 是 单纯 地 使 用 ， 建 议 使 用 requests; 如 果 想 顺便 熟悉 网 络 
方面 的 原理 ， 建 议 还 是 使 用 urllib 模块 。 
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第 15 
< 网 由 肥 虫 和 实战 > 


urllib 怜 虫 可 以 说 是 最 基本 最 原始 的 聆 虫 方式 ， 很 多 疏 虫 框架 比如 Scrapy、Pyspider 都 是 
在 该 包 基 础 上 建立 起 来 的 。 掌 握 它 对 于 我 们 以 后 进行 疏 虫 编程 尤为 重要 。 至 于 什么 是 爬虫 ， 
ee \ 时 我 们 需要 按照 - 些 规则 去 检索 ， 这 个 检索 规则 就 是 疏 虫 代码 ， 
实现 的 过 程 就 是 怜 虫 。 简 单 疏 虫 只 需要 三 步 ， 也 就 是 本 章 将 要 介绍 的 三 个 主要 内 容 。 

本 章 wei 

@ ”获取 页 面 源 码 数 据 。 

@@ ”根据 需要 检索 数据 。 

@ ”保存 数据 到 本 地 。 





获取 页 面 源码 


使 用 Python 从 服务 器 端 获取 浏览 网 页 的 源码 简单 候 虫 ， 不 考虑 JavaSeript 获取 的 数 
据 ) 。 在 Python 下 可 用 的 模块 很 多 ， 这 里 使 用 Python 3.7 的 官方 模块 urllib。 


15.1.1 从 网 页 获取 数据 
事实 上 ， 在 第 14 章 我 们 已 经 使 用 urllib 包 某 些 模 块 进行 了 息 虫 编程 。 比 如 要 读 取 
http://www.baidu.com 网 页 的 内 容 ， 使 用 如 下 代码 即 可 : 


>>> from urllib import request 

>>> res = request.urlopen('http://www.sogou.com') 

>>> res.read() 

b'<!DOCTYPE html>\r\n<html lang="cn">\r\n<head>\r\n 
<script>window. speedMark = new Date();\r\n window.lead ip = 
\'114.253.161.91\';window.now = 1533044746304;</script> <meta charset="utf-— 
8">\r\n<link rel="dns-prefetch" href="//img01.sogoucdn.com"><link rel="dns-— 
prefetch" href="//img02.sogoucdn.com"><link rel="dns-prefetch" 


href="//img03.sogoucdn.com">... 


上 述 代码 输出 内 容 太 多 ， 此 处 只 复制 了 一 部 分 ， 不 过 可 以 从 中 看 出 其 返回 的 是 bytes 类 
型 。 上 述 代 码 其 实 就 是 一 个 页 面 的 聆 取 《〈 礁 取 的 是 http://www.sogou.com 网 址 所 打开 的 页 
面 ) ， 并 将 爬 取 页 面 网 址 传 给 变量 res， 再 用 函数 read0 读 取 整 个 页 面 。 





15.1.2 ”转换 编码 UTF-8 


如 果 想 让 代码 更 直观 一 点 ， 即 将 返回 的 ASCII 编码 转换 成 我 们 需要 的 编码 格式 ， 如 
UTF-8， 可 以 参考 例子 15.1 所 示 的 操作 。 


例子 15.1 转换 编码 UTF-8 








>>> from urllib import request 

>>> rr = request.urlopen('http://www.sogou.com') .read() 

>>> rr.decode('utf-8') 

"<!DOCTYPE html>\r\n<html lang="cn">\r\n<head>\r\n 
<script>window. speedMark = new Date();\r\n window.lead ip = 
\'114.253.161.91\';window.now = 1533045011612;</script> <meta charset="utf-— 
8">\r\n<link rel="dns-prefetch" href="//img01.sogoucdn.com"><link rel="dns-— 
prefetch" href="//img02.sogoucdn.com"><link rel="dns-prefetch" 
href="//img03.sogoucdn.com"><link rel="dns-prefetch" 
href="//img04.sogoucdn.com"><link rel="dns-prefetch" 
href="//dlweb.sogoucdn.com">\r\n<title> 搜 狗 搜索 引擎 - 上 网 从 搜狗 开始 
</title>\r\n<link rel="shortcut icon" href="/images/logo/new/favicon.ico?v=4" 
type="image/x-icon">\r\n<meta http-equiv="X-UA-Compatible" 
content="IE=Edge">\r\n<link rel="search" 
type="application/opensearchdescription+xml" href="/content-search.xml" 
title=" 搜 狗 搜索 ">\r\n<meta name="keywords"” content=" 搜 狗 搜索 ,网 页 搜索 , 微 信 搜索 ,视频 搜 
索 ,图 片 搜索 , 音乐 搜索 ,新 闻 搜索 , 软件 搜索 , 问答 搜索 , 百科 搜索 ,购物 搜索 ">\r\n<meta 
name="description" content=" 中 国 领先 的 中 文 搜索 引擎 ， 支 持 微 信 公 众 号 、 文 章 搜索 ， 通 过 独 有 的 
SogouRank 技术 及 人 工 智能 算法 为 您 提供 最 快 、 最 准 、 最 全 的 搜索 服务 。"> 





如 果 继 续 以 原来 resread0 的 代码 进行 操作 ， 如 resreadO.decode(utf8)， 得 到 的 将 是 

， 因 为 read0 函 数 是 一 次 读 取 的 。 除 了 read0 读 取 外 ， 还 有 readline0 和 readlines()。 i 
其 中 readline0 读 取 一 行 ，readlinesO 读 取 全 部 内 容 ， 不同 的 是 readlines0 会 将 读 取 内 容 传 
给 一 个 列表 变量 。 


上 述 控制 台 的 操作 从 原理 上 说 已 经 实现 一 个 页 面 的 朴 虫 ， 只 不 过 还 没有 将 其 存储 在 本 地 
文件 或 数据 库 中 罢了 。 














15.1.3 ”添加 关键 字 进 行 搜索 
接 下 来 我 们 通过 修改 报头 、 添 加 关键 字 进 行 搜索 疏 虫 来 完成 urllib 怜 虫 的 学 习 。 
修改 报头 已 在 之 前 模块 介绍 中 进行 了 讲解 ， 主 要 包含 两 种 方法 : 


@@ 使 用 build openerO 修 改 报头 。 
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使 用 add header0 添 加 报头 ， 关 键 字 在 quoteO 函 数 中 设置 。 











下 面 用 例子 15.2 的 代码 进行 演示 。 








例子 15.2 添加 关键 字 进 行 搜索 





>>> 
>>> 
> 
>>> 
和 >> 
2 


from urllib import request 

url 'http://www.baidu.com/s?wd=" 

key ' 机 器 学 习 ' 

key url = request .quote (key) 

req = request.Request (url+key url) 

req.add header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 


Apple...: WebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 
Safari/537.36') 


>>> 
2 
> 


data = request.urlopen (req) .read() 
file = open('index.html', 'wb') 
file.write (data) 


322751 


闫 2 


file.close() 


上 述 代 码 通 过 quote0 函 数 对 关键 字 进 行 编码 ， 编 码 之 后 再 构造 URL， 然 后 使 用 Request 
类 《要 添加 报头 ， 因 此 不 使 用 urlopen0) 进行 请 求 ， 接 着 对 搜索 关键 字 搜 索 页 面 进行 伶 虫 操 
作 ， 最 后 保存 为 index.html。 打 开 该 页 面 ， 如 图 15.1 所 示 。 
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图 15.1 怜 取 的 搜索 页 面 index.html 


【上 中 .2 过 滤 数 据 


获取 到 页 面 的 源码 数据 后 ， 需 要 将 这 些 数据 过 滤 一 下 ， 得 到 所 需 的 有 用 信息 。 全 部 使 用 
Python 自 带 的 re 模块 来 过 滤 也 是 可 以 的 ， 但 这 是 最 笨重 最 麻烦 的 办 法 ， 一 般 都 是 采用 其 他 简 
单 的 聆 虫 工具 来 过 滤 ， 以 re 模块 作为 补充 。 这 里 介绍 一 款 常用 的 爬虫 工具 Beautiful Soup 
4 (简称 bs4) 。 























15.2.1 ”Beautiful Soup 简介 


Beautiful Soup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 〈 第 三 方 库 ， 
需要 自行 安装 ) 。 它 能 够 通过 你 喜欢 的 转换 器 实现 常用 的 文档 导航 、 查 找 、 修 改 文档 的 操 
作 。Beautiful Soup 会 帮 我 们 节省 数 小 时 甚至 数 天 的 工作 时 间 。 

在 使 用 bs4 解析 文档 时 ， 需 要 一 款 解析 器 。 解 析 器 既 可 以 使 用 Python 的 标准 库 
html.parser， 也 可 以 使 用 html5lib， 但 建议 选择 bs4 官方 推荐 的 lxml。 











bs4 和 Ixml 都 是 第 三 方 的 模块 ， 都 是 需要 自行 安装 的 。 


15.2.2 ”Beautiful Soup 的 使 用 
bs4 使 用 比较 简单 。 
(1) 通过 解析 器 将 文本 “初始 化 ”为 soup 对 象 。 例 如 : 
from bs4 import BeautifulSoup 
file = ‘text.html’ 
soup = BeautifulSoup (open (file), ‘lxml’) 
#soup = BeautifulSoup (HtmlCode, ‘lxml’) 
(2) 通过 操作 soup 对 象 对 文本 进行 操作 。 
@ ”根据 标签 查找 (type:bs4 obj) : 
tag p = soup.p 
@ ”获取 属性 : 
name = tag p.name 
title = tag p.attrs.get ('title') 


tltle = tagip get EL 
title = tag pl['title'] 
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@ ”获取 文本 内 容 : 


string = tag p.string 
text = tag p.get text() 


content = tag p.contents 


# 过 滤 注 释 内 容 

if type (tag_Pp.string)==bs4.element .Comment: 
print (' 这 是 注释 内 容 ') 

else: 


print (' 这 不 是 注释 ' ) 
@ ”获取 子孙 节点 ( tpye:generator ) : 
descendants = soup.p.descendants 
@ find&c&cfind all 查找 : 


soup .find('a') 
soup.find('a',title='hhh') 
soup.find('a',id="'') 


soup.find('a',class ="'') 


soup.find all('a') 

soup:find all([larr pl]y) 

soup.find all('a',1limit=2) 

@@ select 选择 (type:list) : 

soup.select('.main > ul > 1i > a') [0] .string 

可 以 通过 学 习 bs4 的 官方 文档 熟悉 bs4 的 操作 。 在 过 滤 这 一 环节 ，bs4 可 能 是 最 方便 的 过 
滤器 了 。 正 常情 况 下 完全 可 以 满足 需要 ， 如 果 有 一 些 特殊 的 需求 ， 再 配合 re 模块 足够 完成 任 





数据 保存 


通过 bs4 过 滤 得 到 的 数据 既 可 以 保存 到 本 地 文本 ， 也 可 以 保存 到 远程 数据 库 〈 保 存 本 地 
数据 库 更 加 无 压力 ) 。 


15.3.1 保存 数据 到 本 地 文本 
我 们 可 以 通过 接 下 来 的 代码 实现 将 数据 保存 在 本 地 文件 ， 由 于 疏 取 的 内 容 是 页 面 代码 
( 右 击 网 页 可 查看 源 代码 的 内 容 ) ， 因 此 以 html 格式 保存 〈 毕 竟 疏 取 的 是 整个 网 页 ) 。 


>>> with open('index.htmil'’, "wb'’) as f£: 
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王 -wWIiIite (LT) 


上 述 代码 中 对 应 的 x 是 前 面 所 定义 的 ， 这 里 不 能 使 用 rr.decode0 写 入 ， 因 为 写 入 格式 是 
， 不 能 以 字符 串 形式 写 入 ， 得 以 bytes 写 入 。index .html 如 果 存 在 就 覆盖 ， 和 否则 创建 一 
个 。 当 然 ， 这 里 需要 有 创建 的 权限 ， 在 Window 中 就 无 须 考虑 该 问题 了 。 
至 于 index.html 是 否 已 下 载 ， 可 以 使 用 如 下 代码 检验 : 





>>> with open('index.html', 'r', encoding=’utf-8’) as 工 : 


print (f.read()) 


这 样 就 会 输入 所 得 结果 ， 当 然 也 可 以 进入 执行 ipython 的 当前 目录 下 查看 是 否 存在 
index.html 文件 。 





这 里 使 用 with 代码 操作 ， 省 略 了 关闭 该 文件 的 操作 。 如 果 使 用 如 下 代码 : 


>>> from urllib import request 





>>> res = request.urlopen('http://www.baidu.com') 
>>> data = res.read() 

>>> file = open('index.html', 'wb') 

>>> file.write(data) 


>>> file.close() 


就 得 加 上 close0 函 数 关闭 该 文件 了 。 


15.3.2 保存 数据 到 数据 库 

本 书 以 使 用 最 广泛 的 MySQL 数据 库 为 例 。Python 3.7 连接 到 MySQL 数据 库 的 模块 推荐 
使 用 PyMySQL 模块 ， 可 以 使 用 pip 安装 这 个 模块 : 

pip install pymysql 

使 用 PyMySQL 将 数据 插入 数据 库 中 ， 参 看 例子 15.3 (connDB.py) 。 
例子 15.3 ”使 用 PyMySQL 将 数据 插入 到 数据 库 























#!/usr/bin/env Python3 


import pymysql 


dbInfo = { 
'host': 'localhost'!，# mysql 服务 器 
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"port': 3306，# mysql 端口 

"user': 'xxx"'， 填 mysql 用 户 名 
"password': 'xxx'， 间 mysql 用 户 密码 
"db': "xxx' # 使 用 的 数据 库 名 


sqlCommands = ['xxx'，'yyy'] # 需 要 执行 的 sql 命令 


class Save2DB (object): 
def _ init (self, dbInfo, sqlCommands): 
self.host = dbInfo.host 
self.port = dbInfo.port 
self.user = dbInfo.user 
self.password = dbInfo.password 
self.db = dbInfo.db 


self.sqlCommands = sqlCommands 
self.run() 


def run(self) : 

sqlConn = pymysql.connect( 
host=self.host, 
port = self.port, 
user = self.user, 
password = self.password, 
db = self.db 

) # 连 接 到 数据 库 

cur = sqlConn.cursor() 

for command in self.sqlCommands: 
cur.execute (command) 

cur.close() 

sqlConn.commit () 


sqlConn.close() 


if name 








pass 


connDB.py 只 是 一 个 简单 的 示例 ， 健 壮 性 不 强 。 在 连接 数据 库 和 执行 SQL 语句 时 需要 考 
虑 到 异常 的 出 现 ， 请 读者 修改 代码 进行 测试 。 
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本 章 小 结 


网 页 爬虫 可 以 不 借助 框架 


， 而 使 

















第 14 章 介绍 的 urlib， 但 为 了 提高 息 取 效率 和 代码 编 


写 效率 ， 也 可 以 借助 框架 ， 比 如 本 章 介 绍 的 Beautiful Soup。 和 希望 读者 通过 本 章 的 学 习 ， 不 仅 


了 解 仆 虫 原理 ， 还 能 学 会 站 在 











巨人 的 肩膀 上 ， 利 用 别人 的 库 做 出 更 好 的 应 用 。 
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网 络 怜 虫 的 最 终 目 的 是 从 网 页 中 截取 自己 所 需 的 内 容 ， 以 收集 数据 。 最 直接 的 方法 是 用 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 ， 但 网 站 不 可 能 都 是 统一 的 ， 疏 取 每 
个 页 面 都 可 能 需要 进行 微调 。 如 果 所 有 的 聆 虫 都 这 样 写 ， 工 作 量 未 免 太 大 了 ， 所 以 才 有 了 疏 
虫 框架 。 

Python 下 的 息 虫 框架 有 不 少 ， 最 简单 的 就 要 数 Scrapy 了 : 首先 ， 资 料 比较 全 ， 网 上 的 指 
南 、 教 程 都 比较 多 ; 其 次 ， 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 到 所 需 的 内 
容 ， 使 用 起 来 非常 方便 。 

本 章 的 主要 内 容 是 : 

Scrapy 的 安全 。 

@ Linux 下 的 编辑 器 vim。 
@ 选择 器 XPath。 

@@ Scrapy 实战 。 


16.1 安装 Scrapy 


Scrapy 的 官网 是 http://scrapy.org/， 目 前 最 新 版 本 是 Scrapy 1.5。Scrapy 的 安装 方式 很 
多 ， 官 网 上 就 给 出 了 4 种 安装 方法 ， 即 PyPI[、Conda、APT、Source 安装 。 


16.1.1 在 Windows 下 安装 Scrapy 


在 Windows 下 安装 Scrapy 除了 不 能 使 用 APT 外 ， 其 他 三 种 方法 都 是 可 以 的 。 这 里 选择 
最 简单 的 PyPI 安装 ， 也 就 是 pip 安装 。 用 pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 了 
了 Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd、 执 行 一 


条 命令 即 可 。 打 开 cmd 并 执行 命令 : 


pip install scrapy 


执行 结果 如 图 16.1 所 示 。 





丽 命令 提示 符 
licrosoft Windows [版 本 10. 0. 16299. 192] 
(c) 2017 Jicrosoft Corporation。 保 留 所 有 权利 。 


:\Users\king>pip install scrapy 
ollecting scrapy 






Downloading http://pypi. doubanio. com/packages/a8/96/3affellcf53a5d210553691911 








lI3d5b453479038bb486f7387f4ce4a3b83f}Scrapy-1. 4. 0-py2. py3-none-any. whl 【248kB) 
























ting Twisted>=13. 
Downloading http://p: 
802cc63aa4bbcf7b5f60756 








T 102kB 3.31B/s eta 0:00: 


972kB 所 国人 eta 
983kB 11. 5MB/s eta 0 


112kB 3.0MB/s eta 0:00 
| 122kB 3.7HB/s eta 0:0 
| 133kB 3. 4MB/s eta 0 

| 143kB 4.21B/s eta 

| 153kB 4. ONB/s eta 

| 163kB 5.2NB/s et 
| 174kB 5. 3IB/s 

| 184kB 5. SMB/s 
| 194kB 6. ONB/ 
| i206: 6. SM 














图 16.1 使 用 pip 安装 Scrapy 


在 Windows 下 安装 Scrapy 可 能 会 遇 到 依赖 包 Twisted 无 法 安装 的 问题 。 此 时 需要 安装 





Anaconda 后 使 用 conda 包 管 理工 具 来 安装 Scrapy for Python 


Anaconda 的 下 载 地 址 为 https://www.anaconda.com/download/， 然 后 使 用 如 下 命令 安 


Scrapy: 


conda install scrapy 


16.1.2 在 Linux 下 安装 Scrapy 
在 Linux 下 只 能 采取 pip 的 安装 方式 来 安装 Scrapy， 

了 Python 2 和 Python 3， 因 此 需要 稍微 修改 一 下 安装 命令 : 
python3 -m pip install scrapy 


执行 结果 如 图 16.2 所 示 。 


3。 





! 是 要 稍 加 注意 。Linux 下 默认 安装 
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Downloading https://mirrors.ustc.edu.cn/pypi/web/packages/8c/2d/aad7f16146£419 A 

allfse91fbaldft177adcc2073d36a17b1491fd09df6ed/Pycparser-2.18.tar.gz (245kB) 
10 0% | EE /= 

lBuilding wheels for collected packages: PyDispatcher, Twisted, pycparser 

Running setup.py bdist wheel for PyDispatcher ... done 

Stored in directory: /Foot/.cache/pip/wheels/82/36/ef/edlcd45b48fcelededf3dlc1 
lb61£0454099e057922d4a5b742 

Running setup.py bdist wheel for Twisted ... done 

Stored in directory: /root/.cache/pip/wheels/d2/71/15/b6éfe7dd414cc£8903430fba3 
675b598784575alb7daf63b319 

Running setup.py bdist wheel for pycparser ... done 

Stored in directory: /root/.cache/pip/wheels/3a/f£3/d9/914600e023e38137f8b£6223 
leraoaa3ddefc9abs07aad0aSsd4 
Successfully built PyDispatcher Twisted pycparser 
Installing collected packages: cssselect, lxml, queuelib, idna, pycparser, cffi, 
asnlcrypto, cryptography, pyOpenSsL, w3lib, parsel, PyDispatcher, zope.interfac 
le, constantly, incremental, attrs, Automat, hyperlink, Twisted, pyasnl, pyasni-m 
odules, service-identity, scrapy 
Successfully installed Automat-0.6.0 PyDispatcher-2.0.5 Twisted-17.9.0 asnlcrypt 
0-0.24.0 attrs-17.4.0 cffi-1.11.4 constantly-15.1.0 cryptography-2.1.4 cssselect 
-1.0.3 hyperlink-17.3.1 idna-2.6 incremental-17.5.0 lxml-4.1.1 parsel-1.3.1 pyOp 
lenssL-17.5.0 pyasn1-0.4.2 pyasni-modules-0.2.1 pycparser-2.18 queuelib-1.4.2 scr 
apy-1.5.0 service-identity-17.0.0 w3lib-1.18.0 zope.interface-4.4.3 
root@debian8: /home/king 站 





图 16.2 使 用 apt-get 安装 scrapy 


查看 安装 的 scrapy 版 本 ， 如 图 16.3 所 示 。 


万 king@debian8: ~ 


kingedebian8:~$ scrapy 
Scrapy 1.5.0 - no active project 


Usage: 
scrapy <command> [options] [args] 


Available commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


{ more ] More commands available when run from project directory 
Use "scrapy <command> -h" to see more info about a command 


king@debian8:~$ 
kingedebian8:~$ 


图 16.3 Scrapy 版 本 





现在 Scrapy 已 经 安装 完毕 ， 可 以 使 用 了 。 本 节 就 以 Linux 为 例 来 介绍 如 何 使 用 该 框架 。 


1 6 e 2 Scrapy 选择 器 XPath 和 CSS 











在 使 有 


虫 原理 就 是 获取 网 页 返回 ， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 
Python 的 re 模块 ? 简单 网 页 用 re 模块 提取 还 可 以 ， 复 杂 一 点 的 内 容 
日 Scrapy 提供 的 简单 方法 来 提取 数据 ， 无 须 自己 编写 新 方法 。 


容 。 如 何 提取 呢 ? 使 
提取 就 麻烦 了 。 我 们 可 以 使 月 






































点 在 了 





Scrapy 疏 取 数据 前 需要 先 了 解 Scrapy 的 选择 器 。 在 前 面 章 节 曾 经 提 过 ， 网 络 疏 








提取 内 


@ Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选 择 器 ( seletors) ， 通 过 特定 的 
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XPath 或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

@ XPath 是 一 种 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HIML 上 。CSS 是 
一 种 将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定 义 ， 并 与 特定 的 HTML 元 素 的 样 
式 相 关联 。 

Scrapy 的 选择 器 构建 在 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 ， 所 

以 可 视 自己 喜好 而 定 。 














16.2.1 XPath 选择 器 


XPath 是 一 种 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 属 
性 进行 遍历 。XPath 含有 100 多 个 内 建 的 函数 ， 可 用 于 字符 串 值 、 数 值 、 日 期 和 时 间 比 较 、 
节点 和 QName 处 理 、 序 列 处理 、 逻 辑 值 等 。 在 网 络 怜 虫 中 只 需要 利用 XPath“ 采 集 ” 数 据 ， 
如 果 想 深入 研究 ， 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指 令 、 注 释 以 及 
文档 节点 〈 或 称 为 根 节点 ) 。XML 文档 是 被 作为 节点 树 来 对 待 的 。 树 的 根 被 称 为 文档 节点 或 
者 根 节点 。 下 面 做 一 个 简单 的 XML 文件 (参看 例子 16.1) ， 以 便 演 示 。 


例子 16.1 XML 文件 演示 


cd 

mkdir scrapy 

cd code/scrapy 

mkdir -pv scrapy/seletors 
cd scrapy/seletors 

Vi superHero.xml 


在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors 以 及 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 
































01 <superhero> 
02 <class> 


03 <name lang="en">Tony Stark </name> 
04 <alias>Iron Man </alias> 

05 <sex>male </sex> 

06 <birthday>1969 </birthday> 

07 <age>47 </age> 


08 </class> 
09 <class> 


10 <name lang="en">Peter Benjamin Parker </name> 
11 <alias>Spider Man </alias> 

2 <sex>male </sex> 

13 <birthday>unknow </birthday> 

14 <age>unknown </age> 


15 </class> 
16 <class> 
Tn <name lang="en">Steven Rogers </name> 
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18 <alias>Captain America </alias> 


Js <sex>male </sex> 
20 <birthday>19200704 </birthday> 
2 <age>96 </age> 


22 </class> 
23 </superhero> 


很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 的 效果 如 图 16.4 所 示 。 





This XML file does not appear to have any style information associated with it. The document tree is shown below. 





v <superhero> 
vclass> 
nane lane="en’ Tony Stark</nane: 
<alias>Iron Man‘/alias 
Csex>nale</ sex 
Cbirthday>1969</birthday; 
Kage>4T</ age> 
/class: 
vclass: 
nane lane="en’ Peter Benjanin Parker /nane 
alias>Spider Man</alias: 
Csex> nale /sex 
birthday>urknow/birthday 
<ageyurjanownc/ age 
</class> 
vclass> 
<name lane="en' >Steven Rogersc/rane 
Calias)Capt ain Anericac/alias> 
Csex>nale /sex> 
<birthday>19200704</birthday; 
《age>96C/ age 
/class> 
/superhero> 








图 16.4 选择 器 演示 文件 superHero.xml 

后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 、 

<alias>Iron Man</alias> 是 元 素 节 点 、lang="en" 是 属性 节点 。 

从 节点 的 关系 来 看 ， 第 一 个 Class 节点 是 name、aliass、sex、birthday、age 节点 的 父 节 点 
(Parent) ， 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 
(Childer) 。name、alias、sex、birthday、age 节点 之 间 互 为 同胞 节点 (sibling) 。 这 只 是 

个 简单 的 例子 ， 如 果 节 点 的 “深度 ”足够 ， 还 会 有 先辈 节点 ( Ancestor) 和 后 代 节 点 


(Descendant) 。 


XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 16-1 中 列 出 了 最 常用 的 路 径 表 达 




















式 。 
表 16-1 路 径 表达 式 
表达 式 描述 
nodeName 选取 此 节点 的 所 有 子 节点 
/ 从 根 节点 选取 
// 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 
选取 当前 节点 
区 选取 当前 节点 的 父 节点 
@ 选取 属性 
. 匹配 任何 元 素 节点 
@* 匹配 任何 属性 节点 
Node0 匹配 任何 类 型 的 节点 
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下 面 用 XPath 选择 器 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 做 好 准备 工作 。 执 行 命令 : 


python3 

from scrapt.selector import Selector 

with open(‘./superHero.xml’,’'r’) as fp: 
body = fp.read() 

Selector (text=body) .xpath(‘/*’) .extract () 


首先 启动 Python， 导 入 scrapy.selector 模块 中 的 Selector， 然 后 打开 superHero.xml 文件 ， 
并 将 其 内 容 写 入 body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 
执行 结果 如 图 16.5 所 示 。 


哪 king@debian8: ~/code/crawler script - 口 x 
Python 3.4.2 (default, Oct 8 2014, 10:45:20) ~ 
【GCC 4.9.1] on linux 
Type "help", "copyright", "credits" or "license" for more information. 
>>> from scrapy.selector import Selector 
>>> with open('superHero.xml*, ‘r') as fp: 

body » fp.read() 





>>> body 

[<superhero>\n<class>\n\t<name lang-"en">Tony Stark </name>\n\t<alias>Iron Man 
alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n< 
lass>\n<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spidt 
an </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unkn 
</age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias; 
tain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\ 








>>> Selector (cext=body) .xpath('/*') .extract () 





‘<html><body><superhero>\n<class>\n\t<name lang-"en">Tony Stark </name>\n\t<aldil 
ls>Iron Man </alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>4 
</age>\n</class>\n<class>\n\t<name lang™"en">Peter Benjamin Parker </name>\n\t 
alias>spider Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n 
t<age>unknown </age>\n</class>\n<class>\n\t<name lang""en">Steven Rogers </name| 
\n\t<alias>Captain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 <| 
MANE </age>\n</class>\n</superhero></body></html>"] 
>>> 














16.5 XPath 选择 器 准备 工作 


选择 器 在 从 根 节 点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
因为 示例 文件 并 不 是 一 个 标准 的 HTML 文件 ， 所 以 在 选择 器 中 自动 添加 了 <html> 和 


<body> 标 签 。 也 就 是 说 ， 在 选择 器 看 来 ， 示 例文 件 的 根 节点 并 不 是 <superhero>， 而 是 





下 面 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 16.6 所 示 。 
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>>> print ("对 集 superHero.xmi 中 第 一 个 class 的 内 容 ') 

有 洒 舍 superHero.xmi 中 第 一 个 class 的 内 容 

ee 宪 全 
ry 二 人 和 
本 

a 

>>> print ("采集 supcrHcro.xmi 中 最 后 一 个 class 的 内 容 ") 

采集 superHero.xml 中 最 后 一 个 class 的 内 容 
i 
Se 
a er 
er 

>>> print ("采集 superHero.xml 中 name 属 性 为 en 的 数据 ') 

采信 superHero.xml 中 name 屋 性 为 en 的 数 : 


>>> .3slsssazkssxs=bady) XParbl /nams [Slang="sn"]') sxcracl 


[Iu Dame lano- "en Tony Stark /Tame> Ucname Tone"en" Peer Benjamin Parker 


</name>', u'<name lang-"en">Steven Rogers </name>"] 


>>> 
>>> princ (' 采 集 supezaero_xma 中 倒数 第 二 个 class 的 name 节 点 的 文本 ') 

亲信 =upezsero.xml 中 倒数 第 二 个 class 的 name 节 点 的 文本 

>>> 3E1sczazlcsxs=badyi Pahl /Dm bod/ sporhero/ ass las 0 /ane/cexc). 
) -extra 

av"Becez Benjamin Parker *] 

>>> 

>>> pzanc(, 以 下 展示 的 是 同 套 迹 择 琶 ) 

以 下 展示 的 是 垃 套 选择 器 

|>>> subBody = Selector(text=body) .xpath('/html/body/superhero/class[last()-1]"). 
0 
>>> supBoay 

[u'<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man 
</allas>\nNc<aex>male </scx>NPNE<DIrChaay>Unknow </Dirchday>\n\tcage>unknown </ 
lage>\n</class>"] 

>>> 





图 16.6 XPath 选择 器 收集 数据 
XPath 中 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 XPath 
选择 器 挑选 数据 即 可 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 完成 。 只 要 有 点 耐心 ， 再 复杂 
的 数据 也 可 以 分 离 出 来 。 


16.2.2 CSS 选择 器 


CSS 就 是 大 家 熟知 的 层 合 样式 表 。CSS 规则 由 两 个 主要 的 部 分 构成 :选择 器 以 及 一 条 或 
多 条 声明 。 


selector {declarationl; declaration2; ... declarationN } 


CSS 是 网 页 代码 中 非常 重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 
一 下 。 这 里 只 简略 介绍 一 下 与 息 虫 密切 相关 的 选择 器 。 表 16-2 中 列 出 了 CSS 经 常 使 用 的 几 
个 选择 器 。 








表 16-2 CSS 选择 器 














.Class 选择 class="intro" 的 所 有 元 素 

#id 选择 id="firstname" 的 所 有 元 素 

和 选择 所 有 元 素 

element 选择 所 有 <p> 元 素 

element.element 选择 所 有 <div> 元 素 和 所 有 <p> 元 素 


element element divp 选择 <div> 元 素 内 部 的 所 有 p 元 素 
[attribute] [target] 选择 带 有 target 属性 的 所 有 元 素 
[attribute=value] [target= blank] 选择 target=” blank" 的 所 有 元 素 
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与 XPath 选择 器 相 比 较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 一 点 缺 
陷 。 下 面 就 来 试验 一 下 CSS 选择 器 是 如 何 收集 数据 的 ， 参 见 图 16.7。 





>>> 到 
Ta'<class>VnNC<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>VnNC 
|<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\nc/class>', u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
jn America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
>s6 </age>\n</class>"] 
>>> 
>>> Selector (text=body) .cas('class name') .excract() 

ST TAR Tang="en">Peter Benjamin Parker 


', u'<name lang="en">Steven Rogers </name>'] 


|>>> Selectorltextmbody) ,css (class name') .extract O10] 
Te EWS TERY SE Ze 
>>> Selector (text=body) .css(' [lang]') .extract () [0] 


|a'<name lang="en">Tony Stark </name>' 
>>> 


图 16.7 CSS 选择 器 收集 数据 


因为 CSS 选择 器 和 XPath 选择 器 都 可 以 嵌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 一 来 收 
集 数据 会 更 加 方便 。 


16.2.3 ”其 他 选择 器 

XPath 选择 器 还 有 一 个 .re0 方 法 ， 用 于 通过 正则 表达 式 来 提取 数据 。 不 同 于 .xpath0 或 
者 .css0 〇 方法，.re0 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构造 嵌 套 式 的 .re0 调 用 ， 使 用 方 
法 如 图 16.8 所 示 。 


>>> 
>>> Selector (text=body) .xpath('/html/body/superhero/class[1]') .ze('>- 

















[uu'>Tony Stark <', u'>Iron Man <', u'>male <', u'>1969 <', u'>47 <'] 





图 16.8 re 选择 器 收集 数据 
这 种 方法 并 不 常用 ， 还 不 如 在 程序 中 添加 代码 ， 直 接 用 re 模块 方便 。 
Scrapy 选择 器 建 于 Ixml 之 上 ， 所 以 也 支持 一 些 EXSLT 扩展 。 这 里 就 不 做 说 明了 ， 有 兴 
趣 的 读者 可 以 自行 搜索 。 

















1 6.3 Scrapy 有 把 虫 实战 : 今日 影视 


打 个 比方 ， 在 前 面 章节 中 使 用 re 模块 息 取 网 页 相当 于 写作 文 ， 使 用 Scrapy 怜 取 就 相当 
于 做 填空 题 ， 只 需要 把 相应 的 要 求 填 入 空白 框 里 就 可 以 了 。 
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16.3.1 创建 Scrapy 项 目 


似乎 所 有 的 框架 都 是 从 创建 项 目 开 始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 说 明 的 是 Scrapy 
项 目的 创建 、 配 置 、 运 行 等 操作 ， 默 认 都 是 在 终端 下 进行 的 。 不 要 觉得 很 难 ， 其 实 它 真 的 非 
常 简单 ， 填 空 题 而 已 。 如 果实 在 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse， 在 这 个 万 能 IDE 
下 操作 。 推 荐 在 终端 操作 ， 虽 然 开 始 可 能 因为 不 熟悉 而 出 现 很 多 错误 ， 不 过 错 多 了 ， 印 象 就 
深刻 了 ， 也 就 自然 学 会 了 。 打 开 Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 


cd 
cd code/scrapy/ 
scrapy startproject todayMovie 


tree todayMovie 


执行 结果 如 图 16.9 所 示 。 
SB king@debia 


king@debian8:~/code/scrapy$ scrapy startproject todayMovie 

New Scrapy project 'todayMovie', using template directory '/home/ki 

lib/python3.6/site-packages/scrapy/templates/project', created in: 
/home/king/code/scrapy/todayMovie 


You can start your first spider with: 

cd todayMovie 

scrapy genspider example example.com 
king@debian8:~/code/scrapy$ tree todayMovie/ 
todayMovie/ 


医 scrapy.cfg 
todayMovie 


init_.py 

| Items.py 
middlewares.py 
pipelines.py 
__Pycache 
settings.py 
spiders 


Einitpy 


一 Pycache 


4 directories, 7 files 
kingedebian8:~/code/scrapys | 


图 16.9 创建 todayMovie 项 目 


tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 
命令 apt-get install tree 来 安装 这 个 命令 。 





口 
~ 
ng/anaconda3/ 


是 没有 安装 的 ， 可 以 执行 : 


这 里 可 以 很 清楚 地 看 到 todayMovie 目录 下 的 所 有 子 文件 和 子 目 录 ， 至 此 Scrapy 项 目 
todayMovie 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模板 顺 
便 建 立 一 个 基础 的 仆 虫 ， 相 当 于 把 填空 题 打印 到 试卷 上 ， 等 待 填空 了 。 当 然 ， 也 可 以 不 用 





Scrapy 命令 建立 基础 候 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 呈 





来 ， 按 照 提示 信息 ， 在 终端 执行 命令 : 


cd todayMovie 


scrapy genspider wuHanMovieSpider mtime.com 
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我 们 还 是 怎么 简单 怎么 


执行 结果 如 图 16.10 所 示 。 





4 directories, 7 files 

kingedebian8:~/code/scrapy$ cd todayMovie/ 

king@debian8:~/code/scrapy/todayMovies scrapy genspider wuHanmovieSpider mtime.c 

om 

Created spider 'wulanmoviespider' using template "basic' in module: 
todayMovie.spiders.wuHanmovieSpider 

kingedebian8:~/code/scrapy/todayMovies 四 





图 16.10 创建 基础 仆 虫 


至 此 ， 一 个 基本 的 聆 虫 项 目 已 经 建立 完毕 ， 包 含 了 一 个 Scrapy 怜 虫 所 需 的 基础 文件 。 到 
这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 面 的 工作 就 纯粹 是 填空 了 。 接 下 来 介绍 一 下 scrapy 
genspider 命令 ， 它 是 scrapy 最 常用 的 几 个 命令 之 一 ， 使 用 方法 如 图 16.11 所 示 。 





这 


king@debian8:~/code/scrapy/todayMovies scrapy genspider -h 


scrapy genspider [options] <name> <domain> 


Generate new spider using pre-defined templates 


show this help message and exit 
List available templates 
Edit spider after creating it 
--dump™TEMPLATE, -d TEMPLATE 
Dump template to standard output 
--template~TEMPLATE, -t TEMPLATE 
Uses a custom template. 
--torce If the spider already extsts，overwrite it with the 
template 


Global Options 


1og file. if omitted stderr will be used 
~-loglevel~LEVEL, -L LEVEL 
10g level (default: DEBUG) 





图 16.11 scrapy genspider 命令 帮助 


因此 ， 上 面 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMovieSpider 
的 聆 虫 脚本 ， 这 个 脚本 搜索 的 域 为 mtime.com。 


16.3.2 ”Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 ， 下 面 来 看 看 各 个 文件 的 作用 。 

















(1) 最 顶层 的 todayMovie 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 

(2) 第 二 层 中 有 一 个 与 项 目 同 名 的 文件 夹 todayMovie 和 一 个 文件 scrapy.cfg。 文 件 夹 
todayMovie 是 模块 (也 可 以 叫 作 包 ) ， 所 有 的 项 目 代码 都 在 这 个 模块 〈 文 件 夹 或 者 包 ) 内 添 
加 。scrapy.cfg 文件 是 整个 Scrapy 项 目的 配置 文件 ， 内 容 如 下 : 


01 
02 
03 
04 


# Automatically created by: scrapy startproject 


# For more information about the [deploy] section see: 


# http://doc.scrapy.org/en/latest/topics/scrapyd.html 
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06 [settings] 

07 default = todayMovie -settings 
08 

09 [deploy] 

10 #url = http://localhost:6800/ 
11 project = todayMovie 


除去 以 “#” 为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 : 一 是 定义 默认 设置 文件 的 位 置 
为 todayMovie 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMovie。 

第 二 层 中 还 有 一 个 spiders 的 文件 夹 ， 下 面 有 一 个 _init _.py 文件 ， 说 明 这 个 文件 夹 也 是 
一 个 模块 ， 包 含 本 项 目 中 所 有 的 爬虫 文件 。 


(3) 在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 〈 实 际 上 也 是 模块 ) 。 看 起 来 很 多 ， 实 际 上 有 
用 的 也 就 3 个 文件 ， 即 items.py、pipelines.py、settings.py; 其 他 的 3 个 文件 以 pyc 结尾 的 是 
同名 Python 程序 编译 得 到 的 字 节 码 文件 ， 其 中 settings.pyc 是 settings.py 的 字 节 码 文件 ， 
_ init .pyc 是 _init .py 的 字 节 码 文件 ， 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。_init .py 
文件 是 一 个 空 文件 ， 在 此 处 的 唯一 作用 就 是 将 它 的 上 级 目录 变 成 一 个 模块 。 也 就 是 说 ， 在 第 
二 层 的 todayMovie 模块 下 ， 如 果 没 有 _init .py 文件， 那么 todayMovie 就 只 是 一 个 单纯 的 文 
件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_.py 文件 ， 就 会 将 该 文件 夹 编 程 模块 化 ， 可 以 
供 Python 导入 使 用 。 

@ settings.py 是 上 层 目录 中 scrapy.cfg 定义 的 设置 文件 ， 内 容 如 下 : 


QL coding: nEO = 














02 

03 # Scrapy settings for todayMovie project 

04 3# 

05 # For simplicity, this file contains only settings considered important 
or 

06 # commonly used. You can find more settings consulting the 
documentation: 

07 8# 

08 3# https://doc.scrapy.org/en/latest/topics/settings.html 

09 3# https://doc.scrapy.org/en/latest/topics/downloader-— 
middleware.html 

10 3# https://doc.scrapy.org/en/latest/topics/spider-middleware.html 

1 

12 BOT NAME = "todayMovie' 

13 

14 SPIDER MODULES = ['todayMovie.spiders'] 

15 NEWSPIDER MODULE = 'todayMovie.spiders' 

16 

下 这 


18 # Crawl responsibly by identifying yourself (and your website) on the 
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user-agent 


19 
20 
2 下 
2 


© 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
1 
1 
13 
14 


#USER AGENT = 'todayMovie (+http://www.yourdomain.com)' 


# Obey robots.txt rules 
ROBOTSTXT OBEY = True 


items.py 文件 的 作用 是 定义 聆 虫 最 终 需 要 哪些 项 ， 内 容 如 下 : 


者 =*= coding: utf-8 一 * 一 
Define here the models for your scraped items 


See documentation in: 


直 砷 丰 直 


http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


class TodaymovieItem(scrapy.Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 


pass 


@ pipelines.py 文件 的 作用 是 扫尾 。Scrapy 息 虫 息 取 了 网 页 中 的 内 容 后 ， 怎 么 处 理 这 些 
内 容 就 取决 于 pipelines.py 了 。pipeliens.py 文件 的 内 容 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 


@ 


dnge te OT 


Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 


厘 非 非 非 


See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


class TodaymoviePipeline (object) : 
def process item(self, item, spider): 


return item 


_init py、_ init pyc 文件 刚才 已 经 介绍 过 了 ， 基 本 不 起 作用 。 























wuHanMovieSpider.py 文件 是 刚才 用 scrapy genspider 命令 创建 的 爬虫 文件 ， 内 容 如 下 : 


01 
02 
LE 
04 
05 








二 本 Oddi 全 和 = 8 一 


import scrapy 


class WuhanmoviespiderSpider (scrapy.Spider): 
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06 name = "wuHanMovVvieSpider" 


07 allowed _ domains = ["mtime.com"] 
08 start urls = ( 

09 'http://www.mtime.com/', 

10 ) 

中 

2 def parse(self, response): 

"区 pass 


在 本 次 的 息 虫 项 目 示 例 中 ， 需 要 修改 、 填 空 的 只 有 4 个 文件 ， 分 别 是 items.py、 
settings.py 、 pipelines.py、 wuHanMovieSpiderpy。 其 中 ，items.py 决定 爬 取 哪些 项 目 ， 
wuHanMovieSpider.py 决定 怎么 息 ，settings.py 决定 由 谁 去 处 理 爬 取 的 内 容 ，pipelines.py 决定 


疏 取 后 的 内 容 怎 样 处 理 。 


16.3.3 ”选择 息 取 的 项 目 


My first scrapy crawl 怎么 简单 、 怎 么 清晰 就 怎么 来 。 这 个 息 虫 只 扑 取 当 














以 只 需要 在 网 页 中 采集 这 一 项 即 可 。 选 择 息 取 的 项 目 内 容 保存 在 items.py 中 。 
修改 items.py 文件 如 下 : 


OL =A- oong OntE 6 == 

02 

03 # Define here the models for your scraped items 
04 3# 

05 # See documentation in: 


06 # http://doc.scrapy.org/en/latest/topics/items.html 


07 

08 import scrapy 

09 

10 

11 class TodaymovieItem(scrapy.Item): 

12 # define the fields for Your item here like: 
3 # name = scrapy.Field() 

14 #pass 

15 movieTitlecn = scrapy.Field() # 影 片 中 文 名 
16 movieTitleEn = scrapy.Field() # 影 片 英文 名 
1 director = scrapy.Field() # 导 演 

18 runtime = scrapy.Field() # 电 影 时 长 
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电影 名 字 ， 所 


由 于 Python 中 严格 的 格式 检查 ， 因 此 最 常见 的 异常 IndentationError 会 经 


常 出 现 。 如 果 使 : 


用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 Vi 的 全 局 配置 文件 /etc/vim/vimrc， 将 所 有 的 4 : 


个 空格 变 成 tab。 


与 最 初 的 items.py 比较 一 下 ， 修 改 后 的 文件 只 是 按照 原文 的 提示 添加 了 需要 怜 取 的 项 


目 ， 然 后 将 类 结尾 的 pass 去 掉 了 。 这 个 类 继承 于 Scrapy 的 Item 类 ， 没 有 
_init 的 解析 函数 ， 没 有 定义 新 的 类 函数 ， 只 定义 了 类 成 员 。 


16.3.4 ”定义 如 何 扑 取 


怎样 仆 取 的 内 容 写 在 wuHanMovieSpiderpy 中 。 
修改 spiders/wuHanMovieSpiderpy， 内 容 如 下 : 


QF 4 =X coding: ntE 8 = 
02 import scrapy 
03 from todayMovie.items import TodaymovieItem 


04 import re 


05 

06 

07 class WuhanmoviespiderSpider (scrapy.Spider) : 
08 name = "wuHanMovieSpider" 

09 allowed domains = ["mtime.com"] 

10 start urls = [ 

es 











载 Python 类 


'http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/', 


2 ] # 这 个 是 武汉 汉 街 万 达 影 院 的 主页 


13 

14 

15 def parse(self, response): 

16 selector = response.xpath('/html/body/script [3] /text () ') [0] .extract () 
i ha moviesStr = re.search('"movies":\[.*?\]', selector) .group () 
18 moviesList = re.findall('{.*?}', moviesstr) 

1 :7 items = [] 

20 for movie in moviesList: 

这 下 mDic = eval (movie) 

了 2 item = TodaymovieItem() 

2 item['movieTitleCn'] = mDic.get('movieTitleCn') 

24 item['movieTitleEn'] = mDic.get ('movieTitleEn') 

2 item['director'] = mDic.get ('director') 

26 item['runtime'] = mDic.get('runtime') 

2 items .append (item) 
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在 这 个 


return items 


Python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 〈 包 ) todayMovie 中 的 


items 文件 中 导入 了 TodaymovieItem 类 ， 也 就 是 刚才 定义 需要 怜 取 内 容 的 那个 类 。 
WuhanmovieSpider 是 一 个 自 定义 的 息 虫 类 ， 是 由 scrapy genspider 命令 自动 生成 的 。 这 个 自 定 
义 类 继承 于 scrapy.Spider 类 。 第 8 行 的 name 定义 的 是 息 虫 名 。 第 9 行 的 allowed_domains 定 











义 的 是 域 范 








围 ， 也 就 是 说 该 肘 虫 只 能 在 这 个 域内 爬行 。 第 11 行 的 start_urls 定义 的 是 疏 行 的 





网 页 ， 这 个 聆 虫 只 需要 改行 一 个 网 页 ， 所 以 在 这 里 start_urls 可 以 是 一 个 元 组 类 型 。 如 果 需 要 
疏 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 疏 行 的 网 页 。 

疏 虫 类 中 的 parse 函数 需要 参数 response 〈 请 求 网 页 后 返回 的 数据 ) ， 至 于 怎么 从 
response 中 选取 所 需 的 内 容 ， 一 般 采 取 两 种 方法 : 一 是 直接 在 网 页 上 查看 网 页 源 代 码 ; 二 是 
自己 写 一 个 程序 ， 用 urllib.request 将 网 页 返回 的 内 容 写 入 文本 文件 中 ， 再 慢 慢 地 查询 。 

打开 Chrome 浏览 器 ， 在 地 址 栏 输入 疏 取 网 页 的 地 址 ， 打 开 网 页 ， 如 图 16.12 所 示 。 
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图 16.12 扑 虫 来 源 网 页 





同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 即 使 略 有 不 同 ， 也 可 以 通过 增加 挑选 条 
件 将 所 需 的 数据 全 部 放 入 选择 器 。 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 选择 “查看 网 页 源 代 


码 ”， 如 图 1 
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6.13 所 示 。 
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图 16.13 查看 网 页 源 代码 


打开 源 代码 网 页 ， 按 CtrltF 组 合 键 ， 在 查找 框 中 输入 “ 寻 梦 环 游记 ”后 按 回 车 键 ， 查 找 
结果 如 图 16.14 所 示 。 
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actor2”: “福山 雅治 ",“runtine”:“107 分 钟 ”“property”: “动作 /剧情 /犯罪 “viewProperty”: “动作 /如 情 / 

犯罪", “novieDetailUr1”: “http: //novie. ntine. con/ 222372/", “year”: “2017"}, 

70233, "novieTitleCn”: “正义 联盟 ". "novieTitleEn”:“Justice 

coverSrc”: “http: //ing5. ntine. cn/ nt/2017/11/22/115051.54720032_182243(4. jpe”, “bigRating”:7 
actor”- “本 阿 弗 莱克 ","actor2”: “ 羔 尔 

“加 朵 “,“runt ine”.“120 分 钟 ”,“property”: “动作 /冒险 / 冶 幻 /科幻 ", “viewProperty”:“ 动 作 /冒险 /奇幻 / 科 

1", “novieDet ailJr]”: "http: //novie. ntine. co 70233/”, "year”: ”2017"}. 

{novieId”: 237204, “novieTitleCn”. “引爆 

者 ", “novieTitleEn”: "Explosion”, “coverSrc”: "http://ine5. ntine. /at/2017/10/25/111645. 23140328_182X2 

44. jpe”, “bigRating’ :7, ”smal Rating”: 4, “trailerId :68547,“ 生 rector”.“ 营 征 ",“actor”“ 段 半 

宏 ", “actor2":“ 余 男 ", “runtine”: 105 分钟”,“property”: -动作 /犯罪 -, “viewProperty”: “动作 / 拖 - 


图 16.14 ”查找 关键 词 











League”, 
,smallRatine”: 4, "trailerld”; 68477, “director"“ 扎 克 - 施 亲 德 ”， 
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整个 源 代码 网 页 只 有 一 个 查询 结果 ， 很 明显 。 幸 运 的 是 ， 所 有 的 电影 信息 都 在 一 起 ， 是 以 
json 格式 返回 的 ， 可 以 很 容易 地 转换 成 字典 格式 获取 数据 (也 可 以 直接 用 json 模块 获取 数据 ) 。 

怎样 才能 得 到 这 个 “字典 ” (json 格式 的 字符 串 〉 呢 ?如 果 嵌 套 的 标签 比较 多 ， 可 以 用 
XPath 藤 套 搜索 的 方式 来 逐步 定位 。 由 于 这 个 页 面 的 源码 不 算 复杂 ， 因 此 直接 定位 Tag 标签 
后 逐个 确认 标签 就 可 以 了 。json 字符 串 包含 在 script 标签 内 ， 数 一 下 script 标签 的 位 置 ， 在 脚 
本 中 执行 语句 : 


selector = response.xpath('/html/body/script[3]/text()') [0] .extract( ) 


首先 选择 页 面 代 码 中 html 标签 中 body 标签 下 的 第 4 个 script 标签 ， 然 后 获取 这 个 标签 
的 所 有 文本 并 释放 出 来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任意 一 级 
目录 下 执行 命令 : 


scrapy shell 
http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/ 


执行 结果 如 图 16.15 所 示 。 


~ 
:51+0800 [scrapy] INFO: Enabled item pipelines: TodaymoviePipeli 


6:51+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


:51+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
:51+0800 [wuHanMovieSpider] INFO: Spider opened 

2017-11-28 12:26:51+0800 [wuHanMovieSpider] DEBUG: Crawled (200) <GET http://the 

later.mtime.com/China_Hubei Province Wuhan Wuchang/4316/> (referer: None) 

[s] Available Scrapy objects: 

[s] crawler <scrapy.crawler.Crawler object ar Ox7fadeeSf7d10> 

item 人 

<GET http://theater.mtime.com/China Hubei Province Wuhan Wuchan 








4316/> 
SeEEcings acrapy. settings. Settings Object at OXTFEaSEEIECSSOY 
[s] spider <WuhanmoviespiderSpider 'wuHanMovieSpider' ac Ox7faseda35610> 
[s] Useful shortcuts: 
[s] Shelp() Shell help (print this help) 
fetch(req or url) Fetch request (or URL) and update local objects 
view (response) View response in a browser 





3] response <200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan| 
/ 
s 





图 16.15 scrapy shell 


response 后 面 的 200 是 网 页 返回 代码 ， 代 表 获 取 数 据 正常 返回 ， 如 果 出 现 其 他 的 数字 ， 
就 要 仔细 检查 代码 了 。 现 在 可 以 放心 验证 了 ， 执 行 命令 : 


selector = response.xpath('/html/body/script[3]/text()') [0] .extract () 
print(selector) 


执行 结果 如 图 16.16 所 示 。 
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哪 king@debian8: ~/code/scrapy/todayMovie/todayMovie 


response <200 http://theater.mtime.com/China_Hubei_Province_Wuhan_Wuchan A 
9/4316/> 

[s] settings <scrapy.settings.Settings object at Ox7f216be66668> 

[s] spider <WuhanmoviespiderSpider ‘wuHanmovieSpider' at Ox7f216b9d7e48> 
{s] Useful shortcuts: 

Is] fetch(url{, redirect-True]) Fetch URL and update local objects (by default 
,redirects are followed) 

Ils] fetch(req) Fetch a scrapy.Request and update local object 


shelp() Shell help (print this help) 


: selector = response.xpath('/html/body/scriptl3]/text ()') [0] .extract () 








: print (selector) 





,"longitude":114.3512, "latidude":30.55128, "rating":7.777 
"乘坐 8 路 电车 、19 路 、537 路 、581 路 、583 路 、64 路 道 白 臣 衡 站 ", "movieCo 


Dates":[{"date":new Date("January, 
Imtime .com/China_Hubei_Province_ Wuhan_Wuchang/4316/?d=20180129"), ("date":new Date 
("February, 2 2018 00:00:00"),"dateUrl":"http://theater.mtime.com/China_Hubei_Pr 
ovince Wuhan Wuchang/4316/?d~20180202"}, {"date":new Date("February, 14 2018 00:0v 


图 16.16 验证 选择 器 


选择 器 的 选择 没 问题 。 之 后 回头 看 看 wuHanMovieSpider.py 中 的 parse 函数 就 很 容易 理解 
了 。 代 码 第 17、18 行 先 用 re 模块 将 json 字符 串 从 选择 器 的 结果 中 过 滤 出 来 。 第 19 行 定 义 一 
个 items 的 空 列表 (因为 返回 的 item 不 止 一 个 ， 所 以 只 能 让 item 以 列表 的 形式 返回 ) 。 第 21 
行将 json 字符 串 转 换 成 了 一 个 Python 字典 格式 。 第 22 行将 item 初始 化 为 一 个 
TodaymovieItem() 类 〈 从 todayMovie.items 中 初始 化 过 来 的 ) 。 第 23~26 行将 已 经 初始 化 类 
item 中 的 movieName 项 赋值 。 第 27 行将 item 追加 到 items 列表 中 。 最 后 返回 items。 ( 注 
意 ， 这 里 返回 的 是 items， 不 是 item。) 


16.3.5 ”保存 肛 取 的 结果 
疏 取 结果 保存 在 pipelines.py 中 。 修 改 pipelines.py， 内 容 如 下 : 


Lh nn te Nt 9 一 二 一 
02 





03 # Define your item pipelines here 

04 3# 

05 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 
07 

08 import codecs 


09 import time 


10 

11 class TodaymoviePipeline (object): 

2 def process item(self, item, spider): 

3 today = time.strftime('%Y-%m-%d', time.localtime()) 
14 fileName = ' 武 汉 汉 街 万 达 广 场 店 ' + today + '.txt' 

LS with codecs.open(fileName, ‘a+', 'utf-8') as fp: 

16 fp.write('%s %s $s %s \r\n' 
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17 S$(item['movieTitleCn'], 
18 item[ 'movieTitleEn'], 
19 item['director'], 

20 item['runtime'])) 


之 return Item 


这 个 脚本 比较 简单 ， 就 是 先 把 当日 的 年 月 日 抽取 出 来 当成 文件 名 的 一 部 分 ， 再 把 
wuHanMovieSpider.py 中 获取 项 的 内 容 输入 到 该 文件 中 。 在 这 个 脚本 中 ， 需 要 注意 两 点 : 
(1) open 函数 必须 是 以 追加 的 形式 创建 文件 ， 也 就 是 说 open 函数 的 第 二 个 参数 必须 是 
a， 也 就 是 文件 写 入 的 追加 模式 append。 因 为 wuHanMovieSpiderpy 返回 的 是 一 个 item 列表 
items， 所 以 只 能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参数 是 写 入 模式 write， 造 成 
的 后 果 就 是 先 擦 除 前 面 写 入 的 内 容 再 写 入 新 内 容 ， 一 直 循 环 到 items 列表 结束 ， 最 终 文 件 里 
只 保存 了 最 后 一 个 item 的 内 容 。 
(2) 保存 文件 中 的 内 容 若 含有 汉字 则 必须 转换 成 utf8 码 。 汉 字 的 unicode 码 保存 到 文件 
中 是 无 法 被 我 们 识别 的 ， 所 以 转换 成 可 以 被 识别 的 utf8。 
到 了 这 一 步 ，Scrapy 疏 虫 基本 已 完成 了 。 回 到 scrapy.cfg 文件 的 同 级 目录 下 (实际 上 只 
要 是 在 todayMovie 项 目下 的 任意 目录 中 执行 即 可 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 美 
观 ) ， 执 行 命令 : 
scrapy crawl wuHanMovieSpider 


结果 却 什么 都 没有 ? 为 什么 呢 ? 


16.3.6 ”分 派 任务 

先 看 看 settings.py 的 初始 代码 ， 它 仅 指定 了 Spider 疏 虫 的 位 置 。 再 看 看 写 好 的 Spider 疏 
虫 的 开头 ， 它 导入 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy 已 经 知道 了 爬 取 哪 些 项 目 、 怜 取 
方法 。pipelines 说 明了 怎样 处 理 最 终 的 息 取 结果 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 个 息 行 结 
果 ， 这 时 就 该 setting.py 出 点 力气 了 。setting.py 的 最 终 代码 如 下 : 


QL 4 =#= Coding: Utf-8. .=#= 























02 

03 # Scrapy settings for todayMovie project 

04 3# 

05 # For simplicity, this file contains only the most important settings by 
06 # default. All the other settings are documented here: 

07 3# 

08 # http://doc.scrapy.org/en/latest/topics/settings.html 
D9 和 

10 

11 BOT NAME = "todayMovie' 

I 
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13 SPIDER MODULES = ["todayMovie-spiders'] 
14 NEWSPIDER MODULE = "todayMovie-spiders' 
5 


16 # Crawl responsibly by identifying yourself (and your website) on the 


user-a gent 


17 #USER AGENT = 'todayMovie (+http://www.yourdomain.com)' 


18 
19 ### user define 


20 ITEM PIPELINES = {'todayMovie.pipelines.TodaymoviePipeline':300} 


跟 初 始 的 settings.py 相 比 ， 就 是 在 最 后 添加 了 一 行 TTEM_PIPELINES。 它 告诉 Scrapy 最 
终 的 结果 是 由 todayMovie 模块 中 pipelines 模块 的 TodaymoviePipeline 类 来 处 理 的 。 
ITEM _PIPELINES 是 一 个 字典 (字典 的 key 用 来 处 理 结果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 ) 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问 题 。 如 果 需 要 多 种 处 理 结果 的 方法 ， 





就 要 确立 顺序 了 : 数字 越 小 的 越 先 被 执行 。 
现在 可 以 测试 这 个 Scrapy 息 虫 了 ， 还 是 执行 命令 : 
scrapy crawl wuHanMovieSpider 


ls 


Catesutre 


执行 结果 如 图 16.17 所 示 。 






‘scheduler/enqueued': 1, 
"scheduler/enqueued/memory': 1, 



















anes 8:~/code/crawler/scrapyProject/todayMovie$ 1s 
todayMovie 武汉 汉 街 万 达 广场 店 2017-11-28,cxE 
峡 梦 环 游记 ”coco 李 - 易 克 里 奇 ”109 分 钟 
站 捕 ”Manhunc 吴 字 森 ”107 分 钟 

正义 联盟 Justice League 扎 克 - 施 奈 德 ”120 分 钟 
Bl 爆 者 Explosion 常 征 105 分 钟 

理 笔记 Inference Nores 张 天 辉 55 分 钟 
年 华 Angels Wear White 文 晏 107 分 钟 















不 成 问题 的 问题 Mr.No Problem 梅 峰 133 分钟 

则 梦 环 游记 coco。 李 - 昂 克 时 奇 109 分 钟 

外 捕 ” Manhunc 吴 字 森 ”2107 分钟 

正义 联盟 Justice League 扎 克 - 施 奈 德 ”120 分 钟 

目 塌 者 “Explosion 常 征 105 分 钟 

全 至 笔记 Inference Notes 张 天 辉 55 分 钟 

式 年 华 angels Wear White 文 过 “107 分 钟 

汉字 HHhH 赛 德里 克 - 言 门 内 兹 95 分钟 〔 中 国 ) 1120 分 钟 人 









1acar_cime': datetime.datetime (2017, 11, 28, 4, Sl, 19, 969087)} 
:20+0800 [wuHanMovieSpider] INFO: Spider closed (finished) 


制 杀 盖世 太保 ”ana 塞 德里 克 - 训 门 内 兹 ss 分 钟 ( 中 国 ) 1120 分 钟 〈 法 国 )| 













图 16.17 Scrapy 扑 虫 结果 


这 个 简单 的 怜 虫 就 介绍 到 这 里 了 。 从 这 个 项 目 可 以 看 出 ，Scrapy 仆 虫 只 需要 顺 着 思路 昭 
章 填空 即 可 。 如 果 需 要 的 项 比较 多 、 获 取 内 容 的 网 页 源 比 较 复 杂 或 者 不 规范 ， 可 能 会 稍微 麻 
烦 一 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的 。 与 前 面 的 re 爬虫 相 比 ， 越 复杂 的 爬虫 就 越 能 体 


现 Scrapy 的 优势 。 
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本 章 小 结 


本 章 详细 介绍 了 Scrapy 疏 虫 框架 的 使 用 ， 演 示 了 Scrapy 疏 虫 疏 取 网 页 的 过 程 。 从 使 用 
的 难度 来 说 ，Scrapy 可 以 算得 上 是 简单 的 息 虫 了 ， 简 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 
也 能 很 好 地 支持 数据 怜 取 的 特殊 要 求 。 
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